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内 容 简 介 


本 书 是 计算 机 、 信 息 管 理 和 大 数据 等 相关 专业 的 专业 英语 教材 ， 选 材 广泛 ， 履 盖 大 数据 的 数据 挖掘 、 


数据 分 析 等 各 个 方面 ， 同 时 兼顾 了 相关 的 发 展 热 





‘。 本 书 所 选取 的 文章 包括 以 下 内 容 ， 大 数据 的 基本 概 


念 ， 大 数据 的 数据 挖掘 ， 大 数据 的 数据 分 析 ， 大 数据 的 影响 ， 大 数据 的 商业 价值 ， 大 数据 在 各 个 领域 的 
应 用 ， 以 及 大 数据 如 何 改变 我 们 的 生活 等 。 每 章 所 选用 文章 均 来 自 国外 网 站 ， 文 章 中 出 现 的 新 词 和 专业 
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随 着 时 代 的 进步 和 社会 的 高 速 发 展 ， 互 联网 行业 发 展 风 起 云 涌 ， 移 动 互 联网 、 电 子 商 
务 、 物 联网 以 及 社交 媒体 的 快速 发 展 促使 我 们 快速 进入 了 大 数据 时 代 。 大 数据 技术 与 应 用 
相关 专业 前 景 相当 广阔 ， 大 数据 人 才 需 求 旺盛 ，2017 年 我 国 已 有 35 所 高 校 获 批 该 专业 。 

大 数据 专业 处 于 高 速 发 展 之 中 ， 国 际 化 特征 尤为 明显 ， 从 业 人 员 必 须 提高 专业 英语 水 
平 ， 以 便 及 时 获得 最 新 、 最 先进 的 专业 知识 。 从 某 种 意义 上 说 ， 专 业 英语 的 水 平 决定 了 专 
业 技 能 的 水 平 。 了 解 和 掌握 一 些 大 数据 专业 英语 是 非常 有 必要 的 ， 因 此 ， 几 乎 所 有 开设 大 
数据 专业 的 高 校 都 开设 了 相应 的 专业 英语 课程 。 

本 书 的 内 容 包 括 : 大 数据 的 基本 概念 ， 大 数据 的 数据 挖掘 ， 大 数据 的 数据 分 析 ， 大 数 
据 的 影响 ， 大 数据 的 商业 价值 ， 大 数据 在 各 个 领域 的 应 用 ， 以 及 大 数据 如 何 改变 我 们 的 生 
活 等 。 每 个 单元 基本 上 包括 : TextA 及 Text B 两 篇 文章 ， 这 些 课文 均 选 自 国外 知名 网 站 ， 
具有 一 定 的 知识 性 和 实用 性 ，New Words and Expressions 给 出 课文 中 出 现 的 新 词 ， 读 者 由 
此 可 以 扩充 词汇 量 ; Terms 对 文中 出 现 的 专业 术语 进行 解释 ; Comprehension 针对 课文 进行 
练习 ， 巩 固 学 习 效果 ;Answers 给 出 参考 答案 ， 读 者 可 对 照 检查 学 习 效果 参考 译文 帮助 
读者 理解 文章 大 意 ; 常用 大 数据 词汇 中 英文 对 照 表 供 读者 记忆 单词 和 查询 之 用 。 

本 书 可 作为 大 数据 专业 相关 课程 教材 ， 英 语 专业 及 计算 机 专业 的 选修 教材 ， 各 类 院 校 
大 数据 和 相关 专业 的 参考 书 ， 同 时 也 可 作为 各 类 计算 机 从 业 人 员 或 者 有 志 投 身 于 大 数据 领 
域 的 人 士 的 自学 书籍 。 

本 书 第 1 章 (Chapter 1) 至 第 8 3£ (Chapter 8) 由 朱丹 编写 ， 第 9 章 (Chapter 9) 及 
常用 大 数据 词汇 中 英文 对 照 表 由 王 敏 编写 ， 第 10 章 〈Chapter 10) 由 张 琦 编写 ， 第 11 章 
(Chapter 11) 由 陈 宏 编写 。 全 书 由 朱丹 统 稿 。 

本 书 文章 节选 自 互 联网 ， 在 此 向 文章 原作 者 表示 感谢 ， 由 于 作者 水 平 有 限 ， 书 中 难免 
出 现 不 足 之 处 ， 敬 请 读者 不 音 指 正 。 
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Chapter y 


What is Big Data? 





Text A 


Big data is being generated by everything around us at all times. 
Every digital process and social media exchange produces it. 
Systems, sensors and mobile devices transmit it. Big data is arriving 
from multiple sources at an alarming velocity, volume and variety. 
To extract meaningful value from big data, you need optimal 
processing power, analytics capabilities and skills. 

Big data is a relative term describing a situation where the 
volume, velocity and variety of data exceed an organization's 
storage or compute capacity for accurate and timely decision 
making. 

Some of this data is held in transactional data stores — the 
byproduct of fast-growing online activity. Machine-to-machine 
interactions, such as metering, call detail records, environmental 
sensing and RFID systems, generate their own tidal waves of data. 
All these forms of data are expanding, and that is coupled with 
fast-growing streams of unstructured and semi structured data from 
social media . 

However, big data is defined less by volume — which is a 
constantly moving target — than by its ever-increasing variety, 
velocity, variability and complexity. 

Variety. Up to 85 percent of an organization's data is 
unstructured — not numeric — but it still must be folded into 


quantitative analysis and decision making. Text, video, audio and 








New Words and Expressions 
sensor/'senso(r)/ n. 
传感器 
transmit/trens'mit/ v. 


播送 ， 发射， 传送 (信号 ) 
velocity/və'lvsəti/ n. 

速度 ; 速率 
extract/Ik straekt/ v. 

提取 
optimal/ vp.tr.mol/ adj. 

最 优 的 ， 最 佳 的 ; 优化 的 
analytics/ zn.o Jit.Iks/ n. 

A. EBORE 
exceed/ik 'si:d/ v. 

超过 ， 胜 过 
transactional/tren zek[onol/ 
adj. 

交易 的 ， 业 务 的 
metering/ mi:tarm/ n. 

测量 GE), We 
tidal /'tardl/ adj. 

潮汐 的 ， 潮 水 的 
numeric /nju: merik/ adj. 

数字 的 ， 数 值 的 
quantitative/ kwontrtatrv/ adj. 


定量 的 ， 数 量 (上 ) 的 
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other unstructured data require different architecture and 
technologies for analysis. 

Velocity. Thornton May says, "Initiatives such as the use of 
RFID tags and smart metering are driving an ever greater need to 
deal with the torrent of data in near-real time. This, coupled with 
the need and drive to be more agile and deliver insight quicker, is 
putting tremendous pressure on organizations to build the necessary 
infrastructure and skill base to react quickly enough." 

Variability. In addition to the speed at which data comes your 
way, the data flows can be highly variable — with daily, seasonal 
and event-triggered peak loads that can be challenging to manage. 

Complexity. Difficulties dealing with data increase with the 
expanding universe of data sources and are compounded by the 
need to link, match and transform data across business entities and 
systems. Organizations need to understand relationships, such as 
complex hierarchies and data linkages, among all data. 

A data environment can become extreme along any of the 
above dimensions or with a combination of two or all of them at 
once. However, it is important to understand that not all of your 
data will be relevant or useful. Organizations must be able to 
separate the wheat from the chaff and focus on the information that 
counts — not on the information overload. 

What is changing in the realm of big data? 

Big data is changing the way people within organizations work 
together. It is creating a culture in which business and IT leaders 
must join forces to realize value from all data. Insights from big 
data can enable all employees to make better decisions — deepening 
customer engagement, optimizing operations, preventing threats 
and fraud, and capitalizing on new sources of revenue. But 
escalating demand for insights requires a fundamentally new 
approach to architecture, tools and practices. 

Competitive advantage: Data is emerging as the world's 
newest resource for competitive advantage. 

Decision making: Decision making is moving from the elite 
few to the empowered many. 

Value of data: As the value of data continues to grow, current 
systems won't keep pace. 

How can you realize the greatest value from big data? 








New Words and Expressions 
torrent/'torent/ n. 


奔流 
agile/ ‘aed3all/ adj. 
灵活 的 ,机 人 敏 的 
peak loads 
峰值 负荷 
entity/ entoti/ n. 
实体 
hierarchy/ harera:ki/ n. 
[ 计 ] 分 层 ， 层 次 ， 等 级 制度 
linkage/'lıykıdz/ n. 
RA, ER 
separate the wheat from the 
chaff 
DW RF 
realm/relm/ n. 
领域 ， 范 围 
optimize/ pptmaIZ/ v. 
优化 ， 完 善 
Íraud/fro:d/ n. 
诈骗 ( 罪 ) 
revenue/ revonju:/ n. 
(公司 的 ) 收益 ，( 政 府 的 ) 税收 
escalate/'eskəlert/ v. 
(使 ) 增强 , (使) 扩大 
elite/i li:t/ n. 
掌权 人 物 ， 精 英 
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New skills are needed to fully harness the power of big data. 
Though courses are being offered to prepare a new generation of 
big data experts, it will take some time to get them into the 
workforce. Meanwhile, leading organizations are developing new 
roles, focusing on key challenges and creating new business models 
to gain the most from big data. 

Y Discover the new role of data scientist 

Gartner finds that by 2015, the demand for data and analytics 
resources will reach 4.4 million jobs globally, but only one-third of 
those jobs will be filled. The emerging role of data scientist is 
meant to fill that skills gap. 

Y Be proactive about privacy, security and governance 

While big data can provide significant value, it also presents 
significant risk. Organizations must be proactive about privacy, 
security and governance to ensure all data and insights are protected 
and secure. 

V Create new business models with big data 

From data-driven marketing and ad targeting to the connected 
car, big data is fueling product innovation and new revenue 
opportunities for many organizations. 

Employ the most effective big data technology 

To gain the competitive advantage that big data holds, you 
need to infuse analytics everywhere, make speed a differentiator, 
and exploit value in all types of data. This requires an infrastructure 
that can manage and process exploding volumes of structured and 
unstructured data — in motion as well as at rest — and protect data 
privacy and security. 

Big data technology 

Big data technology must support search, development, 
governance and analytics services for all data types — from 
transaction and application data to machine and sensor data to 
social, image and geospatial data, and more. 

v Systems 

Your infrastructure must capitalize on real-time information 
flowing through your organization. It must be optimized for 
analytics to respond dynamically — with automated business 
processes, better agility and improved economics - to the increasing 
demands of big data. 








New Words and Expressions 
empower/rm paoar/ v. 
给 RA) 做 … 的 权力 ， 授 权 
harness/‘ha:nts/ vt. 
利用 
proactive/ proo sktrv/ adj. 
积极 主动 的 ， 前 摄 的 
governance/'gavonons/ n. 
管理 ， 统 治 
innovation/ 1no'verfn/ n. 
改革 ,创新 
infuse/m fju:z/ vt. 
注入 ， 灌 输 
differentiator/drfs renfrerto/ n. 
区 分 者 ， 微 分 器 
exploit/ik splort/ vt. 
开拓 ， 开 采 
agility /3 d3llatry n. 
敏捷 ， 灵 活 
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v Privacy 

To protect your reputation and brand, your platform must 
comprise stringent policies and practices around privacy and data 
protection, safeguarding all of the data and insights on which your 
business relies. 

Y Governance 

The right platform instills trust, so you can act with 
confidence. It controls how information is created, shared, cleansed, 
consolidated, protected, maintained, retired and integrated within 
your enterprise. 

Y Storage 

To achieve economies and efficiencies, you must run certain 
analytics close to the data, while it is in motion. But for data you 
elect to store, your infrastructure must embody a defensible disposal 
strategy that reduces the run rate of storage, legal expense and risk. 

v Security 

As you infuse analytics into your organization, data security 
becomes more central to your competitive advantage profile. Your 
infrastructure must have strong security measures built in to guard 
your organization against internal and external threats. 

v Cloud 

To relieve the pressure that big data is placing on your IT 
infrastructure, you can host big data and analytics solutions on the 
cloud. Achieve the scalability, flexibility, expandability and 
economics that will provide competitive advantage into the future. 


Note: 

The text is adapted from the website: 
http://www.ibm.com/big-data/us/en/. 
Comprehension 


Blank filling 


1. Big data is being generated by everything around us at all times. Every 


produces it. 
2. Big data is arriving from multiple sources at an alarming 











New Words and Expressions 
reputation/ repju terfn/ n. 
名 声 
comprise/kam 'praiz/ vt. 
包含 ， 包 括 
safeguard/'seifga:d/ vt. 
WH, RE 
instill /m 'stil/ vt. 
逐渐 使 某 人 获得 ( 某 种 可 取 的 
品质 ) 
cleanse/klenz/ vt. 
净化 ， 清 洗 
consolidate/kon' svlidett/ vt. 
统一 ， 合 并 
integrate/' IntrgreIt/ vt. 
使 一 体 化 
efficiency/r frfnsi/ n. 
功效 ， 效 率 
defensible/dr fensobl/ adj. 
能 防御 的 
scalability/skerlo bllrtv n. 
可 量 测 性 
flexibility/ fleksa'biloti/ n. 
灵活 性 
expandability/iks peendobrlity/ n. 
扩展 性 
veracity/vo resoti/ n. 


真实 


and 


and 





To extract meaningful value from big data, you need 


power, 
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capabilities and skills. 
3. Big data is a relative term describing a situation where the volume, velocity and variety 
of data exceed an organization’s or capacity for accurate and timely 


4. Insights from big data can enable all employees to make better decisions — deepening 








, optimizing , preventing , and capitalizing on new 

sources of 

5. Meanwhile, leading organizations are developing . focusing on key and 
creating new to gain the most from big data. 

6. To gain the competitive advantage that big data holds, you need to infuse 
everywhere, make speed a differentiator, and exploit in all types of data. 

7. Big data technology must support P ; and 
services for all data types — from data to machine and sensor 
data to data, and more. 


8. To relieve the pressure that big data is placing on your IT infrastructure, you can host big 
data and analytics solutions on the 

9. IBM data scientists break big data into four dimensions: 

Content Questions 

1. What is the definition of big data? 

2. What are the characteristics of big data? 

3. What is the background of big data? 

4. What does the big data technology do? 

5. What is the value of digging large data? 





Answers 


Blank filling 

. digital process; social media exchange 

. velocity; volume; variety; optimal processing: analytics 

. storage; compute; decision making 

. customer engagement; operations; threats and fraud; revenue 


uod OU PD 一 


. new roles; challenges: business models 

. analytics; value 

. search; development; governance; analytics; transaction and application; social, image 
and geospatial 

8. cloud 

9. volume, variety, velocity and veracity 

Content Questions 

1. “Big data” is a massive, high-growth and diversified information asset that requires a 


new processing model which have greater decision-making power, insight into discovery 
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and process optimization capabilities. 
2. Volume, Variety, Velocity, Value. 
. Big data is being generated by everything around us at all times. Every digital process 


w 


and social media exchange produces it. Systems, sensors and mobile devices transmit it. 
Big data is arriving from multiple sources at an alarming velocity, volume and variety. 

4. Big data technology must support search, development, governance and analytics services for 
all data types — from transaction and application data to machine and sensor data to social, 
image and geospatial data, and more. 


tA 


. The value of digging large data is similar to sandy gold rush, digging sparse but valuable 
information from massive amounts of data. 


参考 译文 


我 们 身边 的 每 件 事物 每 时 每 刻 都 在 产生 大 量 的 数据 。 每 个 数字 流 和 社交 媒体 的 互动 都 
会 产生 数据 。 这 些 数据 通过 系统 、 传 感 器 和 移动 设备 传输 。 大 数据 源 于 众多 数据 源 ， 其 产 
生 速度 、 数 据 量 和 多 样 性 都 迅速 增长 。 要 从 大 数据 中 提取 有 意义 的 信息 价值 ， 需 要 最 优 的 
处 理 能 力 、 分 析 能 力 和 技术 。 

大 数据 是 描述 数据 量 、 数 据 获 得 速度 和 数据 多 样 性 的 名 词 术语 ， 大 数据 受 限 于 硬件 设 
施 ， 从 而 使 一 些 公司 在 存储 空间 、 计 算 资 源 方面 不 能 提供 准确 、 实 时 的 分 析 结 果 。 

其 中 一 些 数据 存储 在 基于 事务 模型 的 数据 库 中 一 一 这 是 快速 增长 的 在 线 活动 的 副 产 
品 。 机 器 对 机 器 的 交互 ， 如 计量 、 通 话 细节 记录 、 环 境 感 测 和 RFID 系统 ， 产 生 自 己 的 潮 
汐 数据 。 所 有 这 些 形式 的 数据 正在 快速 增长 ， 同 时 ， 来 自 社交 媒体 的 非 结 构 化 和 半 结 构 化 
数据 也 在 飞速 增长 。 

然而 ， 与 其 通过 数据 量 来 定义 一 一 这 是 一 个 不 断 变化 的 目标 ， 不 如 通过 不 断 增加 的 数 
据 种 类 、 数 据 产生 速度 、 数 据 多 样 性 和 复杂 性 来 简单 描述 大 数据 。 

多 样 性 。 机 构 中 高 达 85% 的 数据 是 非 结构 化 的 ( 非 数 字形 式 ) ， 但 其 必须 转化 为 数字 
形式 ， 以 用 于 定量 分 析 和 决策 。 文 本 、 视 频 、 音 频 和 其 他 非 结构 化 数据 需要 不 同 的 架构 和 
技术 进行 分 析 。 

fi. Thornton May 指出 :“ 使 用 RFID 标签 和 智能 计量 等 举措 正在 推动 对 实时 处 理 这 
些 数 据 洪流 产生 更 大 的 需求 。 这 些 ， 加 上 更 加 敏捷 和 提供 更 快 的 洞察 力 方面 的 需求 和 驱动 
J, 正在 给 公司 带 来 巨大 的 压力 ， 必 须 建立 必要 的 基础 设施 和 技能 库 ， 以 迅速 作出 反应 ”。 

变化 性 。 除 了 数据 传输 的 速度 之 外 ， 数 据 流 可 能 是 高 度 可 变 的 ， 日 常 的 、 季 节 性 的 和 
事件 触发 的 峰值 负载 都 可 能 对 管理 带 来 挑战 。 

复杂 性 。 随 着 数据 源 不 断 增多 ， 处 理 数据 的 困难 越 来 越 大 ， 需 要 在 业务 实体 和 系统 之 
间 链 接 、 匹 配 和 转换 数据 。 组 织 需要 了 解 所 有 数据 之 间 的 关系 ， 例 如 复杂 的 层次 结构 和 数 
据 链 接 。 

数据 环境 可 以 在 上 述 任何 方面 变 得 极端 , 更 不 用 说 上 述 几 方 面 还 可 能 组 合 出 现 。 但 是 ， 
重要 的 是 要 了 解 并 不 是 所 有 的 数据 都 是 相关 的 或 有 用 的 。 组 织 必须 能 够 分 清 良 劳 ， 并 将 重 
点 放 在 有 效 信息 上 ， 而 不 是 关注 信息 超载 。 
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大 数据 领域 的 变化 是 什么 ? 

大 数据 正在 改变 组 织 内 部 人 员 的 合作 方式 。 它 正在 创造 一 种 文化 , 企业 和 IT 领导 者 必 
须 共同 努力 ， 使 大 数据 的 价值 得 以 体现 。 来 自 大 数据 的 分 析 结 论 可 以 使 所 有 员工 做 出 更 好 
的 决策 一 一 深化 客户 参与 ， 优 化 运营 ， 防 止 威胁 和 欺诈 ， 以 及 利用 新 的 收入 来 源 。 但 是 ， 
由 于 洞察 力 需求 的 不 断 增长 ， 需 要 一 种 全 新 的 方法 来 构建 、 使 用 和 实践 。 

竞争 优势 ;数据 正在 成 为 世界 上 最 新 的 竞争 优势 资源 。 

决策 过 程 : 决策 正在 从 精英 阶层 转向 被 赋予 权力 的 许多 人 。 

数据 价值 ， 随 着 数据 价值 的 不 断 增长 ， 目 前 的 系统 将 不 能 保持 同步 。 

如 何 从 大 数据 中 获得 最 大 价值 ? 

大 数据 的 能 量 需 要 新 的 技术 来 发 据 ， 虽 然 一 些 课程 正在 培养 新 一 代 大 数据 专家 ， 但 需 
要 一 段 时 间 才 能 使 他 们 进入 劳动 力 队伍 。 同 时 ， 领 先 企业 正在 发 挥 新 的 作用 ， 重 点 关注 重 
大 挑战 ， 创 造 新 的 商业 模式 ， 从 大 数据 中 获取 最 大 收益 。 

。 发 现 数据 科学 家 的 新 角色 

Gartner 公司 发 现 ， 到 2015 年 ， 对 数据 和 分 析 资 源 的 需求 将 在 全 球 创造 440 万 个 工作 
岗位 ， 但 只 有 三 分 之 一 的 岗位 得 到 落实 。 数 据 科 学 家 的 新 兴 角 色 意 在 填补 这 一 技能 差距 。 

。 积极 主动 关注 隐私 、 安 全 和 治理 

虽然 大 数据 可 以 提供 重要 的 价值 ， 但 也 存在 重大 风险 。 公 司机 构 必须 积极 主动 地 了 解 
隐私 、 安 全 和 治理 ， 以 确保 所 有 数据 和 分 析 得 到 妥善 保护 。 

。 使 用 大 数据 创建 新 业务 模式 

从 数据 驱动 的 营销 、 广 告 定向 投放 到 车 联网 ， 大 数据 推动 了 许多 组 织 的 产品 创新 和 新 
的 收入 机 会 。 

采用 最 有 效 的 大 数据 技术 

为 了 获得 大 数据 所 具有 的 竞争 优势 ， 人 们 可 以 在 任何 客户 端 上 输入 分 析 数 据 ， 使 速度 
成 为 一 个 产生 区 别 的 主要 因素 ， 并 深度 挖掘 不 同类 型 数据 的 价值 。 因 此 必须 设计 一 个 完善 
的 基础 架构 ， 可 以 管理 和 处 理 以 指数 级 增长 的 结构 化 和 非 结 构 化 的 数据 量 〈 包 括 静 态 数据 
与 动态 数据 ) ， 同 时 保护 数据 的 隐私 和 安全 。 

大 数据 技术 

大 数据 技术 必须 支持 所 有 数据 类 型 的 搜索 、 开 发 、 管 理 和 分 析 服务 ， 从 交易 数据 、 应 
用 程序 数据 到 机 器 和 传感器 数据 ， 以 及 社交 化 信息 、 图 像 和 地 理 空间 数据 等 。 

。 系统 

大 数据 基础 设施 必须 利用 流 经 公司 组 织 的 实时 信息 ， 同 时 它 必须 对 数据 分 析 进 行 优化 
以 便 动 态 响 应 ， 包 括 自 动 化 业务 流程 、 高 便捷 性 和 高 性 价 比 ， 以 满足 大 数据 日 益 增长 的 
需求 。 

。 隐私 

为 了 保护 公司 的 声誉 和 品牌 ， 大 数据 平台 必须 包含 有 关 隐 私 和 数据 保护 的 严格 策略 和 
机 制 ， 保 护 公司 业务 所 依靠 的 数据 和 未 来 规划 。 

。 管理 


完善 的 大 数据 平台 拥有 信任 属性 ， 可 以 让 用 户 或 企业 放心 地 行事 。 它 控制 如 何在 企业 





大 数据 专业 英语 教程 


中 创建 、 共 享 、 清 理 、 整 合 、 保 护 、 维 护 、 删 除 和 集成 信息 。 

。 存储 

为 了 实现 经 济 性 和 高 效 性 , 必须 在 运行 过 程 中 执行 与 数据 关系 密切 的 特定 分 析 。 但 是 ， 
对 于 用 户 选择 存储 的 数据 ， 平 台 的 基础 架构 必须 体现 出 可 防范 的 处 置 策略 ， 从 而 减少 运行 
存储 系统 的 费用 、 法 律 费 用 和 风险 。 

。 安全 

当 企业 将 分 析 数 据 上 传 到 大 数据 平台 时 ， 数 据 安全 将 成 为 企业 竞争 优势 的 核心 。 大 数 
据 的 基础 架构 必须 具有 强大 的 安全 措施 ， 以 保护 企业 免 受 内 部 和 外 部 威胁 。 

ea 

为 了 减轻 大 数据 在 IT 基础 设施 上 的 压力 , 可 以 在 云端 托管 大 数据 和 分 析 解 决 方案 ,以 
实现 可 伸缩 性 、 灵 活性 、 可 扩展 性 和 经 济 性 ， 为 未 来 提供 竞争 优势 。 


Text B 





Big data is increasingly becoming a factor in production, market | New Words and Expressions 
competitiveness. Cutting-edge analysis technologies are making | cutting-edge 

inroads into all areas of life and changing our day-to-day existence. 前 沿 的 

Sensor technology, biometric identification and the general trend | inroad /'mrood/ n. 

towards a convergence of information and communication 进展 

technologies are driving the big data movement. convergence/kon v3:d;ons/ n. 

Huge challenges must be overcome if the benefits are to be 会 聚 ， 集 收敛 
leveraged effectively. Matters of concern alongside increasing | dimension/dar menn/ n. 
volumes of data, varying data structures and real-time processing | [Xo E. 4 
include data security, data privacy policies that are in urgent need of 
reform and the rising quality expectations of the stakeholders. 

Using sensors, a multitude of data sets and specific algorithms, 
automatic predictions could soon be made about particular 
behavioral tendencies (and not just online) on the basis of simple 
correlations. The way in which people think about data and data 
analysis will gradually change as well, in addition to the 
technological possibilities. 

Big data is more than just IT: Many decision-makers in all 
kinds of sectors have recognized that big data is no longer purely 
the preserve of IT. Big data is instead becoming a movement that 
brings together cutting-edge internet technologies and analysis 
techniques in order for large, extendable and above all differently 
structured data sets to be captured, stored and analyzed. This gives 


big data a broad, international dimension with different 








knowledge-based outcomes and expectations with regard to 
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increasing growth and efficiency. But above all, big data provides 
scope for experimentation, innovation and creativity, offers a 
wealth of potential new data combinations and is therefore ideal for 
discovering unexpected correlations. It could be used to create new 
business models, products and services and to drive innovation. 

The information management big data and analytics 
capabilities include: 

Data Management & Warehouse: Gain industry-leading 
database performance across multiple workloads while lowering 
administration, storage, development and server costs; Realize 
extreme speed with capabilities optimized for analytics workloads 
such as deep analytics, and benefit from workload-optimized 
systems that can be up and running in hours. 

Hadoop System: Bring the power of Apache Hadoop to the 
enterprise with application accelerators, analytics, visualization, 
development tools, performance and security features. 

Stream Computing: Efficiently deliver real-time analytic 
processing on constantly changing data in motion and enable 
descriptive and predictive analytics to support real-time decisions. 
Capture and analyze all data, all the time, just in time. With stream 
computing, store less, analyze more and make better decisions 
faster. 

Content Management: Enable comprehensive content 
lifecycle and document management with cost-effective control of 
existing and new types of content with scale, security and stability. 

Information Integration & Governance: Build confidence in 
big data with the ability to integrate, understand, manage and 
govern data appropriately across its lifecycle. 

Note: 

The text is adapted from the website: 

https://www-01.ibm.com/software/data/bigdata/. 


参考 译文 








New Words and Expressions 
Stream Computing 


流 计算 





大 数据 越 来 越 成 为 影响 生产 和 市 场 竞 争 力 的 因素 。 先 进 的 分 析 技 术 正 在 进入 生活 的 各 
个 方面 ， 改 变 我 们 的 日 常生 活 。 传 感 器 技术 、 生 物 识 别 和 信息 通信 技术 融合 的 趋势 正在 驱 








动 大 数据 快速 发 展 。 
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要 有 效 利用 效益 杠杆 ， 必 须 克服 巨大 的 挑战 。 大 数据 吸 待 解决 的 重要 问题 包括 在 数据 
量 不 断 增长 、 数 据 结构 不 断 变 化 和 需要 实时 处 理 的 情况 下 ， 数 据 的 安全 性 、 人 迫切 需要 改革 
的 数据 隐私 策略 以 及 利益 相关 者 不 断 提高 的 期 望 值 。 

使 用 传感器 、 多 种 数据 集 和 特定 算法 可 以 在 简单 的 相关 性 的 基础 上 就 特定 的 行为 倾向 
(而 不 只 是 在 线 ) 做 出 自动 预测 。 除 了 技术 可 能 性 之 外 ， 人 们 对 数据 和 数据 分 析 的 思考 方式 
也 将 逐渐 改变 。 

各 行业 的 利益 相关 者 : 大 数据 不 仅仅 是 IT 

各 行业 的 决策 者 都 认识 到 ， 大 数据 不 再 仅仅 是 IT 的 禁 猎 区 。 相 反 ， 大 数据 将 成 为 汇集 
先进 的 互联 网 技术 和 分 析 技 术 的 狩猎 区 ， 以 便 进行 对 大 型 的 、 可 扩展 的 和 各 种 不 同 结构 的 
数据 集 的 捕捉 、 存 储 和 分 析 。 这 为 大 数据 提供 了 广泛 的 国际 应 用 空间 、 不 同 的 知识 成 果 和 
对 效率 日 益 增长 的 期 望 。 但 最 重要 的 是 ， 大 数据 为 实验 、 创 新 和 创造 力 的 发 展 空 间 ， 提 供 
了 大 量 潜在 的 新 数据 组 合 ， 因 此 大 数据 分 析 是 发 现 数据 之 间 意 外 相关 性 的 最 佳 方式 。 它 可 
以 用 于 创建 新 的 商业 模式 、 产 品 和 服务 ， 并 能 推动 创新 。 

信息 管理 大 数据 和 分 析 功 能 包括 以 下 方面 。 

数据 管理 和 仓库 : 在 降低 管理 、 存 储 、 开 发 和 服务 器 成 本 的 同时 ， 大 数据 可 在 多 个 工 
作 负 载 下 获得 行业 领先 的 数据 库 性 能 ， 通 过 对 分 析 工 作 负载 〈 如 深度 分 析 ) 进行 优化 的 功 
能 ， 实 现 极 高 的 速度 ， 并 可 从 数 小 时 内 启动 和 运行 的 工作 负载 优化 系统 中 获 益 。 

Hadoop 系统 : 通过 应 用 加 速 器 、 分析、 可视化 、 开 发 工具 、 性 能 和 安全 功能 , 将 Apache 
Hadoop 的 强大 功能 带 入 企业 。 

流 计算 : 有 效 地 为 不 断 变化 的 运动 数据 提供 实时 分 析 处 理 ， 并 支持 描述 性 和 预测 性 分 
析 ， 以 支持 实时 决策 ， 无 时 无 刻 地 捕 提 并 分 析 所 有 的 数据 。 使 用 流 计算 ， 可 以 减少 存储 空 
间 ， 做 更 多 的 分 析 ， 更 快 地 做 出 更 好 的 决策 。 

内 容 管理 : 通过 规模 、 安 全 性 和 稳定 性 ,对 现 有 和 新 类 型 的 内 容 进行 成 本 效益 的 控制 ， 
实现 全 面 的 内 容 生 命 周 期 和 文档 管理 。 

信息 集成 和 治理 :建立 对 大 数据 的 信心 ， 并 在 整个 周期 中 适当 地 集成 、 推 断 、 管 理 和 
支配 数据 。 

















Chapter 了 


Data Mining For Big Data 





Text A 


Data mining involves exploring and analyzing large amounts of 
data to find patterns for big data. The techniques came out of the 
fields of statistics and artificial intelligence (AI) with a bit of 
database management thrown into the mix. 

Generally, the goal of the data mining is either classification or 
prediction. In classification, the idea is to sort data into groups. For 
example, a marketer might be interested in the characteristics of 
those who responded versus who didn't respond to a promotion. 

These are two classes. In prediction, the idea is to predict the 
value of a continuous variable. For example, a marketer might be 
interested in predicting those who will respond to a promotion. 

Typical algorithms used in data mining include the following: 

Classification trees: A popular data-mining technique that is 
used to classify a dependent categorical variable based on 
measurements of one or more predictor variables. The result is a 
tree with nodes and links between the nodes that can be read to 
form if-then rules. 

A tree showing survival of passengers on the Titanic(“sibsp” is 
the number of spouses or siblings aboard). The figures under the 
leaves show the probability of outcome and the percentage of 
observations in the leaf(shown in Figure 2-1). 

Logistic regression’: A statistical technique that is a variant of 


standard regression but extends the concept to deal with 








New Words and Expressions 
statistic /sta trstik/ n. 
统计 ， 统 计 学 
artificial intelligence 
人 工 智能 
promotion /pro' moo. fan/ n. 
促销 ， 推 销 ; 宣传 
continuous variable 
连续 变量 
dependent categorical variable 
相关 的 分 类 变量 
predictor variable 
预测 变量 
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classification. It produces a formula that predicts the probability of | New Words and Expressions 


the occurrence as a function of the independent variables”. 











[yes] is sex male? [no] 
is age > 9.5? ( Survived ) ) 
/ E 0.73 3696 
is Du 22.5? 
0 E. 6196 
EA (survived ) 
0.05 296 0.89 296 
Figure 2-1 


Neural networks: A software algorithm that is modeled after 
the parallel architecture of animal brains. The network consists of 
input nodes, hidden layers, and output nodes. Each unit is assigned 
a weight. Data is given to the input node, and by a system of trial 
and error, the algorithm adjusts the weights until it meets a certain 
stopping criteria. Some people have likened this to a black-box 
approach". 

Clustering? techniques like K-nearest neighbors^: A technique 
that identifies groups of similar records. The K-nearest neighbor 
technique calculates the distances between the record and points in 
the historical (training) data. It then assigns this record to the class 
of its nearest neighbor in a data set. 

Here's a classification tree example. Consider the situation 
where a telephone company wants to determine which residential 
customers are likely to disconnect their service.The telephone 
company has information consisting of the following attributes: 
how long the person has had the service, how much he spends on 
the service, whether the service has been problematic, whether he 
has the best calling plan he needs, where he lives, how old he is, 
whether he has other services bundled together, competitive 
information concerning other carriers plans, and whether he still has 
the service. 

Of course, you can find many more attributes than this. The 
last attribute is the outcome variable: this is what the software will 
use to classify the customers into one of the two groups — perhaps 
called stayers and flight risks. 





logistic regression 

/l1o'dzistikrr grefn/ n. 
逻辑 回归 

variant/ veoriont/ n. 
Zik, EW 

independent variable 
自 变量 

assign /3 SaIn/ vt. 
Ak. WO 

stopping criteria 
停止 准则 

clustering/ klastorry / 
HR, RH 

K-nearest neighbors 
邻近 算法 

bundle/ ban.dol/ vt.&vi. 
收集 ， 归 拢 ， 把 … 塞 入 
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The data set is broken into training data and a test data set. The 
training data consists of observations (called attributes) and an 
outcome variable (binary in the case of a classification model) — in 
this case, the stayers or the flight risks. 

The algorithm is run over the training data and comes up with 
a tree that can be read like a series of rules. For example, if the 
customers have been with the company for more than ten years and 
they are over 55 years old, they are likely to remain as loyal 
customers. 

These rules are then run over the test data set to determine how 
good this model is on “new data.” Accuracy measures are provided 
for the model. For example, a popular technique is the confusion 
matrix’. This matrix is a table that provides information about how 
many cases were correctly versus incorrectly classified. 

If the model looks good, it can be deployed on other data, as it 
is available (that is, using it to predict new cases of flight risk). 
Based on the model, the company might decide, for example, to 
send out special offers to those customers whom it thinks are flight 
risks. 

Note: 

The text is adapted from the website: 
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New Words and Expressions 
flight risks 
潜逃 风险 
binary/ banori/ adj. 
二 进 制 
confusion matrix 
/ken fju:zon mertriks/ 
含混 矩阵 
deploy/dr plov vt. 
有 效 运用 





http://www.dummies.com/programming/big-data/ engineering/data-mining-for-big-data/. 


Terms 


1. regression 


回归 : 用 一 个 或 多 个 预测 变量 (predictor) 来 预测 结果 变量 Coutcome variable) 值 的 


统计 分 析 。 


2. independent variables/dependent variables 


自 变量 / 因 变 量 : 自 变量 是 因 , 而 因 变 量 是 果 ， 自 变量 的 发 生 在 前 , 因 变 量 的 发 生 在 后 。 
自 变量 有 时 在 不 同 的 情境 中 亦 被 称 为 预测 变量 ， 而 因 变 量 则 被 称 为 效 标 变量 。 


3. Neural networks 





神经 网 络 : 人 工 神 经 网 络 Cartificial neural networks, ANNs) 也 简称 为 神经 网 络 (NNs) 
或 称 作 连 接 模型 (connection model) ， 它 是 一 种 模仿 动物 神经 网 络 行为 特征 ， 进 行 分 布 式 
并 行 信息 处 理 的 算法 数学 模型 。 这 种 网 络 依靠 系统 的 复杂 程度 ， 通 过 调整 内 部 大 量 节点 之 


间 相 互 连 接 的 关系 ， 从 而 达到 处 理 信息 的 目的 。 
4. black-box approach 


黑 盒 方法 : 通常 在 分 析 一 个 开放 系统 时 ， 采 用 典型 的 黑 盒 方法 ， 系 统 的 模拟 数据 作为 
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黑 盒 输入 ， 系 统 的 反馈 结果 作为 输出 ， 而 黑 盒 中 的 所 有 运作 过 程 无 法 得 知 ， 如 图 2-2 所 示 。 
黑 盒 方法 主要 针对 系统 的 功能 性 测试 。 

而 白 盒 方法 则 适用 于 已 知 系统 的 内 部 工作 过 程 ， 可 以 通过 测试 证 明 每 种 内 部 操作 是 否 
符合 设计 规格 要 求 ， 所 有 内 部 成 分 是 否 已 经 过 检查 。 


s Eg vm | 
hi > Stimulus Response | 


Figure 2-2 (图 2-2) 


5. clustering 

RE: 聚 类 的 本 质 就 是 寻找 联系 紧密 的 事物 ， 把 它们 区 分 出 来 。 如 果 这 些 事物 较 少 ， 
人 为 地 就 可 以 简单 完成 这 一 目标 。 但 是 遇 到 大 规模 的 数据 时 ， 人 力 就 显得 十 分 无 力 了 。 所 
以 我 们 需要 借助 计算 机 来 帮助 寻找 海量 数据 间 的 联系 。 

聚 类 过 程 中 有 一 个 关键 的 量 ， 这 个 量 就 是 标识 两 个 事物 之 间 的 关联 度 的 值 ， 称 为 相关 
距离 度量 Cdistance metrics) ， 相 似 性 度量 、 皮 尔 逊 相似 性 系数 都 是 计算 这 种 距离 度量 的 方 
法 。 根 据 实际 情况 的 不 同 ， 选 择 不 同 的 适用 的 度量 方法 。 这 一 点 十 分 重要 ， 直 接 影 响 聚 类 
的 结果 是 否 符 合 实际 需要 和 情况 。 

聚 类 是 一 个 无 监督 学 习 Cunsupervised learning) 的 过 程 ， 无 须 进行 样本 数据 的 训练 。 
设计 出 适合 的 距离 度量 方法 后 ， 即 可 对 目标 数据 集 进行 聚 类 。 

6. K-nearest neighbors 

K 最 近邻 (K-nearest neighbor, KNN) 分 类 算法 : 是 一 个 理论 上 比较 成 熟 的 方法 ， 也 
是 最 简单 的 机 器 学 习 算法 之 一 。 该 方法 的 思路 是 ， 如 果 一 个 样本 在 特征 空间 中 的 个 最 相 
似 ( 即 特征 空间 中 最 邻近 ) 的 样本 中 的 大 多 数 属于 某 一 个 类 别 ， 则 该 样本 也 属于 这 个 类 别 。 
KNN 算法 中 , 所 选择 的 邻居 都 是 已 经 正确 分 类 的 对 象 。 该 方法 在 定 类 决策 上 只 依据 最 邻近 
的 一 个 或 者 几 个 样本 的 类 别 来 决定 待 分 样本 所 属 的 类 别 。KNN 方法 虽然 从 原理 上 也 依赖 于 
极限 定理 ， 但 在 类 别 决策 时 ， 只 与 极 少量 的 相 邻 样 本 有 关 。 由 于 KNN 方法 主要 靠 周 围 有 
限 的 邻近 的 样本 ， 而 不 是 靠 判 别 类 域 的 方法 来 确定 所 属 类 别 的 ， 因 此 对 于 类 域 的 交叉 或 重 
释 较 多 的 待 分 样本 集 来 说 ，KNN 方法 较 其 他 方法 更 为 适合 。 

KNN 算法 不 仅 可 以 用 于 分 类 ， 还 可 以 用 于 回归 。 通 过 找 出 一 个 样本 的 大 个 最 近邻 居 ， 
将 这 些 邻 居 的 属性 的 平均 值 赋 给 该 样本 ， 就 可 以 得 到 该 样本 的 属性 。 更 有 用 的 方法 是 将 不 
同 距离 的 邻居 对 该 样本 产生 的 影响 给 予 不 同 的 权 值 Cweight) ， 如 权 值 与 距离 成 正比 。 

该 算法 在 分 类 时 有 个 主要 的 不 足 是 ， 当 样本 不 平衡 时 ， 如 一 个 类 的 样本 容量 很 大 ， 而 
其 他 类 样本 容量 很 小 时 ， 有 可 能 导致 当 输入 一 个 新 样本 时 ， 该 样本 的 大 个 邻居 中 大 容量 
的 样本 占 多 数 。 因 此 可 以 采用 权 值 的 方法 〈 和 该 样本 距离 小 的 邻居 权 值 大 ) 来 改进 。 该 方 
法 的 男 一 个 不 足 之 处 是 计算 量 较 大 ， 因 为 对 每 一 个 待 分 类 的 文本 都 要 计算 它 到 全 体 已 知 样 
本 的 距离 ， 才 能 求 得 它 的 个 最 近邻 点 。 目 前 常用 的 解决 方法 是 事先 对 已 知 样本 点 进行 前 
辑 ， 事 先 去 除 对 分 类 作用 不 大 的 样本 。 该 算法 比较 适用 于 样本 容量 比较 大 的 类 域 的 自动 分 
类 ， 而 那些 样本 容量 较 小 的 类 域 采 用 这 种 算法 比较 容易 产生 误 分 。 
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KNN 算法 的 决策 过 程 如 下 : 

图 2-3 中 ， 圆 要 被 决定 赋予 哪个 类 ， 是 三 角形 还 是 四 方形 ? WR 本 3， 由 于 三 角形 所 
占 比 例 为 23， 圆 将 被 赋予 三 角形 那个 类 ， 如 果 后 5， 由 于 四 方形 比例 为 3/5， 因 此 圆 被 赋 
予 四 方形 类 。 























Figure 2-3 (图 2-3) 


7. confusion matrix 

混淆 矩阵 : 在 人 工 智 能 中 ， 混 淆 矩阵 是 可 视 化 工具 ， 特 别 用 于 监督 学 习 〈 监 督学 习 是 
利用 一 组 已 知 类 别 的 样本 调整 分 类 器 的 参数 ， 使 其 达到 所 要 求 性 能 的 过 程 ， 也 称 为 监督 训 
练 或 有 教师 学 习 ) 。 在 图 像 精 度 评价 中 ， 主 要 用 于 比较 分 类 结果 和 实际 测 得 值 ， 可 以 把 分 
类 结果 的 精度 显示 在 一 个 混淆 矩阵 里 面 。 混 淆 矩阵 是 通过 将 每 个 实测 像 元 的 位 置 和 分 类 与 
分 类 图 像 中 的 相应 位 置 和 分 类 像 比较 计算 的 。 











Comprehension 

Blank filling 

1. Data mining involves and large amounts of data to find 
for big data. The techniques came out of the fields of and , With a bit 
of thrown into the mix. 

2. The goal of the data mining is either or . In classification, the idea 
is to sort data into In prediction, the idea is to predict the value of a 
variable. 

3. Typical algorithms used in data mining include the following: 

, 4 te. 
4. Logistic regression produces a formula that predicts the of the occurrence as a 
of the independent variables. 

5. The network consists of : , and . Each unit is assigned 

a weight. Data is given to the input node, and by a system of and , the 


algorithm adjusts the weights until it meets a certain 
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Content Questions 

1. What is the data mining? 

2. What are the typical algorithms used in data mining? 
3. What is the process of classification? 


Answers 


Blank filling 
1. exploring: analyzing; patterns; statistics; artificial intelligence (AI); database management 


2. classification; prediction: groups; continuous 


3. €t 


assification trees; Logistic regression; Neural networks; Clustering techniques 


4. probability; function 
5. input nodes; hidden layers; output nodes; trial; error; stopping criteria 


Content Questions 
1. Data mining involves exploring and analyzing large amounts of data to find patterns for 
big data. 


2. Cl 


assification trees, Logistic regression, Neural networks, K-nearest neighbors. 


3. Select the training data, establish classification model, data classification. 


参考 译文 


数据 
W. AI 
对 促销 活 


挖掘 是 指 通过 分 析 大 量 数据 来 找到 特定 模式 的 过 程 。 数 据 挖 抉 技术 通过 结合 
智能 、 数 据 管理 等 诸多 方法 来 实现 上 述 目标 。 

， 数 据 挖掘 的 目标 是 分 类 或 预测 。 分 类 是 将 数据 分 组 并 排序 。 例 如 ， 相 比 于 那些 
动 没有 反应 的 人 ， 营 销 者 可 能 对 那些 有 反应 的 人 的 特征 更 感 兴趣 。 


在 预测 中 ， 理 想 的 预测 是 给 出 连续 变量 曲线 。 例 如 ， 营 销 人 员 可 能 有 兴趣 预测 对 促销 


活动 做 出 
数据 
分 类 

变量 进行 


回应 的 人 群 。 

挖掘 中 使 用 的 典型 算法 如 下 。 

Bi. 一 种 流行 的 数据 挖掘 技术 ， 用 于 根据 一 个 或 多 个 预测 变量 的 测量 对 依赖 分 类 
分 类 。 结 果 是 一 个 树 ， 节 点 和 节点 之 间 的 链接 形成 还 then 规则 。 





可 用 
叶子 节点 
逻辑 
归公 式 可 
神经 








个 树 来 显示 泰坦 尼克 号 上 乘客 生存 情况 ，sibsp 是 船上 配偶 或 兄弟 姐妹 的 人 数 。 
的 数字 显示 了 结果 的 可 能 性 以 及 其 所 占 比 例 ， 如 图 2-1 (Figure 2-1) 所 示 。 

回归 : 一 种 统计 学 技术 ， 是 标准 回归 的 变形 ， 但 扩展 了 处 理 分 类 的 概念 。 逻 辑 回 
将 发 生 概率 作为 自 变 量 的 函数 进行 预测 。 

网 络 : 一 种 模仿 动物 神经 网 络 行为 特征 ， 进 行 分 布 式 并 行 信息 处 理 的 算法 数学 模 








型 。 网络 





输入 节点 、 隐藏 层 和 输出 节点 组 成 。 每 个 节点 被 分 配 一 个 权重 。 数据 连接 输入 节点 ， 

















并 且 通 过 试 错 系统 调整 权重 ， 直 到 满足 一 定 的 停止 准则 。 该 方法 可 以 看 作 一 个 黑 盒 方法 。 
WEEE A, WK 最 近邻 (KNN, K-nearest neighbor) 分 类 算法 ， 它 是 一 种 识别 类 似 记 


录 组 的 技 


Ño K 最 近邻 技术 计算 历史 数据 中 记录 与 点 之 间 的 距离 。 然 后 ， 它 将 该 记录 分 配 
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给 数据 集中 最 近邻 的 类 。 

给 出 一 个 分 类 树 示 例 。 考 虑 一 个 电话 公司 想 要 确定 哪些 住宅 客户 可 能 会 断 开 其 服务 的 
情况 。 电 话 公 司 拥有 以 下 属性 的 信息 : 用 户 拥有 这 项 服务 多 久 ， 用 户 在 服务 上 花 了 多 少时 
间 ， 服 务 是 否 一 直 是 有 问题 的 ， 用 户 是 否 拥有 他 所 需要 的 最 好 的 电话 通信 计划 ， 用 户 住 的 
WHT, 用 户 年 龄 多 大 , 用户 是 否 有 其 他 服务 捆绑 在 一 起 ， 有关 其 他 运营 商 计 划 的 竞争 信息 ， 











以 及 用 户 是 否 仍 然 使 用 该 服务 。 
当然 ， 可 以 找到 比 这 更 多 的 属性 。 最 后 一 个 属性 是 结果 变量 ， 软 件 将 客户 分 为 以 下 两 








组 : 忠实 用 户 和 有 停机 可 能 的 用 户 。 

数据 集 分 为 训练 数据 和 测试 数据 。 训 练 数据 包括 观察 值 〈 称 为 属性 ) 和 结果 变量 在 
分 类 模型 的 情况 下 为 二 进 制 ) ， 结 果 变 量 在 本 例 中 即 为 停留 可 能 和 停机 可 能 。 

该 算法 运行 在 训练 数据 上 ， 并 提出 了 可 以 像 一 系列 规则 一 样 读 取 的 树 。 例 如 ， 如 果 客 
户 已 经 使 用 公司 服务 十 多 年 ， 且 他 们 已 经 55 岁 以 上 ， 他 们 很 有 可 能 仍然 是 忠实 的 客户 。 

然后 将 这 些 规则 运行 在 测试 数据 上 ， 以 确定 该 模型 对 “新 数据 ”有 多 好 。 为 模型 提供 
了 准确 性 度量 。 例 如 ， 混 淆 矩阵 是 目前 流行 的 技术 ， 该 窍 阵 的 表格 提供 有 关 多 少 个 案例 正 
确 与 不 正确 分 类 的 信息 。 

如 果 模 型 看 起 来 不 错 ， 它 就 可 以 部 署 在 其 他 数据 上 ， 因 为 它 是 可 用 的 《即使 用 它 来 预 
测 出 逃 风 险 的 新 情况 )。 根 据 模式 分 析 ， 公 司 可 能 会 决定 出 台 一 些 政策 ， 如 ， 向 那些 被 模式 
分 析 检 测 出 的 具有 出 逃 风险 的 客户 给 予 特别 优惠 。 


Text B 














Data Mining is one important way to analyze the data in some | New Words and Expressions 
proper format. Data Mining is a process in which data is analyzed | estimation/ esti'merfn/ n. 

on different criteria and summarize it for further use. In other words 估计 

Data Mining is extract information from large set of data values. | association rules 

That means mining knowledge from large data values is Data 关联 规则 

Mining also referred as Knowledge Discovery. Data Mining can be 
useful in different areas like fraud detection, Market analysis, 
Target Analysis. 

Generally. data mining (sometimes called data or knowledge 
discovery) is the process of analyzing data from different 
perspectives and summarizing it into useful information — 
information that can be used to increase revenue, cuts costs, or both. 
Technically, data mining is the process of finding correlations or 
patterns among dozens of fields in large relational database. Data 
mining as a term used for the specific classes of six activities or 
tasks as follows: 

* Classification 

e Estimation 
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* Prediction 

e Association rules 

e Clustering 

e Description 

A. Classification 

Classification is a process of generalizing the data according to 
different instances. Several major kinds of classification algorithms 
in data mining are Decision tree, k-nearest neighbor classifier, 
Naive Bayes, Apriori and AdaBoost. Classification consists of 
examining the features of a newly presented object and assigning to 
it a predefined class.The classification task is characterized by the 
well-defined classes, and a training set consisting of reclassified 
examples. 

B. Estimation 

Estimation deals with continuously valued outcomes.Given 
some input data, we use estimation to come up with a value for 
some unknown continuous variables such as income, height or 
credit card balance. 

C. Prediction 

It’s a statement about the way things will happen in the future, 
often but not always based on experience or knowledge. Prediction 
may be a statement in which some outcome is expected. 

D. Association Rules 

An association rule is a rule which implies certain association 
relationships among a set of objects (such as “occur together” or 
“one implies the other”) in a database. 

E. Clustering 

Clustering can be considered the most important unsupervised 
learning problem: so, as every other problem of this kind, it deals 
with finding a structure in a collection of unlabeled data. 
Challenges of Big Data Mining 

Volume and Scalability 

It is the biggest challenge to deal with the size of data. As 
Twitter generates 7 + Terabytes of data and Facebook generate 10 + 
Terabytes of data every year so it becomes difficult to manage and 
analyze. As we are moving from Terabytes to Petabytes and from 
Petabytes to Zeta bytes of data it’s the important task to analyze this 
Big Data by some methodology. Scale the data in proper way is the 
important issue in big data mining. 








New Words and Expressions 
balance/' bzlons / n. 
imply/im pla v. 
暗示 ; 意味 ; 隐 含 ; 说 明 ， 表 明 
unsupervised/ an'sju:pəvarzd/ 
无 人 监督 的 ， 无 人 管理 的 
methodology/me09' dvlad3i]/ n. 
方法 论 ; 方法 学 ; (从 事 某 一 活 
动 的 ) 一 套 方法 
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MisHandling of Big Data 

Data handling mainly depends on the scalability of data. And 
scalability depends on data size, hardware size, and concurrency. 
Day by day data size is increasing and format to store data is also 
changing and not fixed in future so it’s the task of data analyst to 
overcome such challenge as mishandling of data by different users. 

Privacy and Security 

In Big data, data size and format are not fixed so it’s difficult 
to maintain privacy of one user from another. And because of this 
volume of data security algorithms are not fixed. When size of data 
changes or format changes then we need to apply new security 
algorithms. Ones we define the security or privacy algorithms to it 
cannot be applicable to upgraded data. E.g. In hospital the data 
collected and it may upgrade daily and it may be in different format, 
so it becomes difficult to analyze and secure the newly added data. 
As data is linked with so many formats and users it’s a fear to keep 
privacy of data and hence it’s a big challenge in data mining. 

Speed and Velocity 

Velocity refers to unique speed with timely manner. But in 
many cases it is difficult to maintain unique speed because of 
variety and size of data. 

Heterogeneity of Data 

Data analysis has first step that data must be structured in a 
well format. Some errors and confusion in data may lead to miss 
classification of data. Machine analysis algorithm only understands 
homogeneous or structured data. Hence to make the data in 
homogeneous format is a big challenge in big data mining. 

Note: 

The text is adapted from the website: 
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New Words and Expressions 
heterogeneity/ hetoro'dz2 ni:otV 
n. 

不 均匀 性 


homogeneous/,hpma d;i:nios / 


adj. 
均匀 的 ; 同性 质 的 ， 同 类 的 





http://xueshu. baidu.com/s?wd=paperuri%3A%286aa 1 d0 1e1827b6e7759a6bbb7c098 144%2 
9&filter-sc long sign&sc_ks_para=q%3DBig%20Data%20Mining%3A %20Challenges%2C% 
20Technologies%2C%20Tools%20and%20Applications&sc_us=9685418709125473720&tn=S 


E baiduxueshu clgjeupa&ie-utf-8. 


参考 译文 


数据 挖掘 是 以 一 定格 式 分 析 数 据 的 重要 方法 之 一 ， 是 一 个 以 不 同 标准 分 析 数 据 的 过 
程 ， 并 对 其 进行 总 结 以 供 人 们 进一步 使 用 。 即 数据 挖掘 是 从 大 量 数据 值 中 提取 信息 。 我 们 
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把 从 大 数据 中 挖掘 知识 称 为 数据 挖掘 ， 也 称 为 知识 发 现 。 数 据 挖掘 可 用 于 不 同 的 领域 ， 如 
欺诈 检测 、 市 场 分 析 、 目 标 分 析 。 

通常 ， 数 据 挖掘 〈 有 时 称 为 数据 发 现 或 知识 发 现 ) 是 从 不 同 角度 分 析 数 据 并 将 其 总 结 
为 有 用 信息 的 过 程 ， 有 用 信息 即 可 用 于 增加 收入 、 降 低 成 本 或 同时 实现 两 者 的 信息 。 从 技 
术 上 讲 ， 数 据 挖掘 是 在 大 型 关系 数据 库 中 发 现 数 十 个 领域 之 间 的 关联 或 模式 的 过 程 。 数 据 
挖掘 用 于 以 下 六 类 活动 或 任务 : 

分 类 、 估 计 、 预 测 、 关 联 规 则 、 聚 类 、 说 明 。 

A. 分 类 

分 类 是 根据 不 同 实例 推广 数据 的 过 程 。 数 据 挖掘 中 主要 的 分 类 算法 有 决策 树 、K 最 近 
邻 分 类 器 、 朴 素 贝 叶 斯 算法 、Apriori 算法 和 AdaBoost 算法 。 分 类 包括 检查 新 提出 的 对 象 
的 特征 并 为 其 分 配 预 定义 的 类 。 分 类 任务 的 特征 在 于 明确 定义 的 类 ， 以 及 由 重 分 类 示例 组 
成 的 训练 集 。 

B. 估计 

估计 处 理 连续 值 的 结果 。 给 出 一 些 输 入 数据 ， 来 估计 得 出 一 些 未 知 的 连续 变量 的 值 ， 
例如 收入 、 高 度 或 信用 卡 余额 。 


C. 预测 

这 是 关于 未 来 发 生 的 事情 的 声明 ， 并 不 总 是 基于 经 验 或 知识 。 预 测 可 能 是 对 预期 结果 
的 一 些 声 明 。 

D. 关联 规则 


关联 规则 就 是 有 关联 的 规则 , 它 意 味 着 数据 库 中 一 组 对 象 之 间 的 某 些 关联 关系 (如 “一 
起 出 现 ” 或 “一 个 隐 含 另 一 个 ”) 。 

E. RK 

聚 类 可 以 被 认为 是 最 重要 的 无 监督 学 习 问 题 ， 所 以 ， 像 类 似 的 其 他 问题 一 样 ， 它 可 以 
实现 在 未 标记 数据 的 集合 中 找到 一 个 结构 。 

大 数据 挖掘 的 挑战 

数据 集 和 可 扩展 性 

处 理 大 量 数据 是 最 大 的 挑战 。 目 前 ，Twitter 每 年 产生 7TB 以 上 的 数据 ，Facebook 每 
年 都 会 产生 10TB 以 上 的 数据 ,因此 变 得 难以 管理 和 分 析 。 当 我 们 的 数据 规模 从 太 字 节 (TB) 
转向 拍 字 节 (PB) ， 从 拍 字 节 (PB) 转向 泽 字 节 (ZB) 时 ， 通 过 某 种 方法 分 析 这 个 大 数 
据 是 重要 的 任务 。 大 数据 挖掘 中 的 重要 问题 是 正确 地 量化 数据 。 

大 数据 的 误 操 作 

数据 处 理 主要 取决 于 数据 的 可 扩展 性 。 可 扩展 性 取决 于 数据 大 小 、 硬 件 大 小 和 并 发 性 。 
数据 量 日 益 增加 ， 存 储 数据 的 格式 也 在 变化 ， 并 且 在 未 来 也 不 会 固定 不 变 ， 所 以 数据 分 析 
师 的 任务 是 克服 诸如 对 不 同 用 户 的 数据 处 理 不 当 的 挑战 。 

隐私 和 安全 

在 大 数据 中 ， 数 据 大 小 和 格式 不 是 固定 的 ， 很 难 在 用 户 之 间 保 护 隐 私 。 而 且 由 于 这 个 
数据 量 的 数据 安全 算法 并 不 固定 ， 当 数据 大 小 更 改 或 格式 更 改 时 ， 我 们 需要 应 用 新 的 安全 
算法 。 我 们 定义 安全 性 或 隐私 算法 ， 不 能 适用 于 数据 升级 。 例 如 ， 医 院 收 集 的 数据 可 能 每 
天 升级 ， 可 能 会 有 不 同 的 格式 ， 因 此 难以 分 析 和 保护 新 增 的 数据 。 由 于 数据 与 许多 格式 和 
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用 户 相关 联 ， 因 此 担心 保护 数据 的 隐私 ， 这 在 数据 挖掘 中 是 一 个 很 大 的 挑战 。 

速度 和 高 速 

高 速 是 指 随时 间 变 化 的 具有 一 定 模式 的 速度 。 但 是 在 许多 情况 下 ， 由 于 数据 的 种 类 和 
大 小 ， 难 以 保持 某 种 特定 模式 的 速度 。 

异 构 数 据 

数据 分 析 的 第 一 步 是 数据 必须 以 良好 的 格式 进行 结构 化 。 数 据 中 的 一 些 错误 和 混淆 可 
能 导致 数据 错误 分 类 。 机 器 分 析 算 法 只 能 理解 均匀 或 结构 化 数据 。 因此， 使 数据 格式 统一 
成 为 大 数据 挖掘 的 一 大 挑战 。 
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Text A 


Big data analytics is the process of examining large data sets to 
uncover hidden patterns, unknown correlations, market trends, 
customer preferences and other useful business information. The 
analytical findings can lead to more effective marketing, new revenue 
opportunities, better customer service, improved operational efficiency. 
competitive advantages over rival organizations and other business 
benefits. 

The primary goal of big data analytics is to help companies 
make more informed business decisions by enabling data scientists, 
predictive modelers and other analytics professionals to analyze 
large volumes of transaction data’, as well as other forms of data 
that may be untapped by conventional business intelligence(BI) 
programs. That could include Web server logs and Internet 
clickstream data, social media content and social network activity 
reports, text from customer emails and survey responses, 
mobile-phone call detail records and machine data captured by 
sensors connected to the Internet of Things. 

Semi-structured and unstructured data may not fit well in 
traditional data warehouses based on relational databases". 
Furthermore, data warehouses may not be able to handle the 
processing demands posed by sets of big data that need to be 
updated frequently or even continually — for example, real-time data 


on the performance of mobile applications or of oil and gas 








New Words and Expressions 
rival/'rat.val/ 
竞争 对 手 ; 敌手 
predictive/prr dik.trv/ 
预言 性 的 ， 预 测 的 ; 前瞻 的 
informed/m fo:md/ 
了 解 情况 的 ; 见 多 识 广 的 ; 消息 
灵通 的 
transaction data 
事务 数据 ， 事 务 处 理 数据 ， 交 易 
数据 
untapped/an tapt/ 
未 利用 的 ; 未 开发 的 
clickstream 
GH 点 击 流 ( 指 对 网 络 用 户 上 
网 点 击 的 一 系列 网 页 的 记录 ) 
Internet of Things 
物 联 网 
relational databases 
关系 数据 库 ， 关 系 型 数据 库 ， 关 
联 式 资料 库 
Hadoop 
分 布 式 计算 
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pipelines. As a result, many organizations looking to collect, 
process and analyze big data have turned to a newer class of 
technologies that includes Hadoop? and related tools such as 
YARN, MapReduce*, Spark’, Hive? and Pig’ as well as NoSQL 
database". Those technologies form the core of an open source 
software framework that supports the processing of large and 
diverse data sets across clustered systems. 

In some cases, Hadoop clusters and NoSQL systems are being 
used as landing pads and staging areas for data before it gets loaded 
into a data warehouse for analysis, often in a summarized form that 
is more conducive to relational structures. Increasingly though, big 
data vendors are pushing the concept of a Hadoop data lake that 
serves as the central repository for an organization's incoming 
streams of raw data. In such architectures, subsets of the data can 
then be filtered for analysis in data warehouses and analytical 
databases, or it can be analyzed directly in Hadoop using batch 
query tools, stream processing software and SQL? on Hadoop 
technologies that run interactive, ad hoc queries'? written in SQL. 

Big data can be analyzed with the software tools commonly 
used as part of advanced analytics disciplines such as predictive 
analytics, data mining, text analytics and statistical analysis. 
Mainstream BI software and data visualization tools can also play a 
role in the analysis process. 

Potential pitfalls that can trip up organizations on big data 
analytics initiatives include a lack of internal analytics skills and the 
high cost of hiring experienced analytics professionals. The amount 
of information that's typically involved, and its variety, can also 
cause data management headaches, including data quality and 
consistency issues. In addition, integrating Hadoop systems and 
data warehouses can be a challenge, although various vendors now 
offer software connectors between Hadoop and relational databases, 
as well as other data integration tools with big data capabilities. 

Why is big data analytics important? 

Big data analytics helps organizations harness their data and 
use it to identify new opportunities. That, in turn, leads to smarter 
business moves, more efficient operations, higher profits and 
happier customers. In his report Big Data in Big Companies, IIA 


Director of Research Tom Davenport interviewed more than 50 


23 








New Words and Expressions 

diverse/dat'v3:s/ 

不 同 的 ， 多 种 多 样 的 ; BYE 

色 的 
clustered system 

Ur) 群集 系统 

sensor/'senso(r)/ n. 

传感器 
transmit/trens'mit/ v. 

播送 ， 发 射 ， 传 送 (信号) 
velocity/va Ipsoti/ n. 

速度 ; 速率 
extract/ik'straekt/ v. 

提取 
optimal/ vp.tr.mol/ adj. 

最 优 的 ， 最 佳 的 ; 优化 的 
analytics/ zn.o lrt.iks/ n. 

分 析 ， 逻 辑 分 析 的 方法 
exceed/ik'si:d/ v. 

超过 ; 胜 过 
conducive/kon'd3u:.stv/ 

有 利 的 ， 有 助 的 ， 有 益 的 
vendor/' ven.dor/ 

KE 
repository/r1 poz.1.tor.i/ 

仓库 ; 贮藏 室 ; 存放 处 
raw data 

原始 数据 
Subset/ SAb.set/ 

子 集 (类 似 的 数字 、 物 体 或 人 员 

的 一 个 集合 组 ， 是 另 一 个 较 大 集 

合 的 一 部 分 ) 
batch/beet{/ 

一 批 ; 一 批 生产 的 量 
interactive /,Im.te reek.tiv/ 

互相 作用 的 ;【〖 计 了】 交互 式 的 
pitfall prtfo:]/ 

隐患 ; 陷阱 
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businesses to understand how they used big data. He found they got 
value in the following ways: 

(1) Cost reduction. Big data technologies such as Hadoop and 
cloud-based analytics" bring significant cost advantages when it 
comes to storing large amounts of data — plus they can identify 
more efficient ways of doing business. 

(2) Faster, better decision making. With the speed of Hadoop 
and in-memory analytics", combined with the ability to analyze 
new sources of data, businesses are able to analyze information 
immediately — and make decisions based on what they've learned. 

(3) New products and services. With the ability to gauge 
customer needs and satisfaction through analytics comes the power 
to give customers what they want. Davenport points out that with 
big data analytics, more companies are creating new products to 
meet customers' needs. 

Note: 

The text is adapted from the website: 








New Words and Expressions 
trip up 

绊 ， 绊 倒 (RA) 
consistency/kon 'sis.ton.si/ 

连贯 性 ; 一 致 性 
harness/ ha: .nas/ 

背带 ; 利用 ， 控 制 
interview /'1n.to.vju:/ 

接见 ， 采 访 ; Wik; 访问 
gauge /gerd3/ 

尺度 ， 标 准 ; 测量 ， 评 估 ; 采用 
cost reduction 


降低 成 本 





http://searchbusinessanalytics.techtarget.com/definition/big-data-analytics. 


Terms 


1. Transaction data 


Transaction data are data describing an event (the change as a result of a transaction) and is 
usually described with verbs. Transaction data always has a time dimension, a numerical value 


and refers to one or more objects (i.e. the reference data). 
Typical transactions are: 
e Financial: orders, invoices, payments 
e Work: Plans, activity records 
* Logistics: Deliveries, storage records, travel records, etc. 


Typical transaction processing systems (systems generating transactions) are SAP and 


Oracle Financials. 





事务 数据 是 描述 事件 〈 作 为 事务 结果 的 更 改 ) 的 数据 ， 并 且 通 常用 动词 来 描述 。 事 





务 


p 


数据 总 是 具有 时 间 维 度 和 数值 ， 并 且 指 代 一 个 或 多 个 对 象 〈 即 参考 数据 ) 。 


。 财务 订单 、 发 票 、 付 款 ; 
。 工作 计划 、 活 动 记录 ; 
。 物流 交 货 、 仓 储 记录 、 旅 行 记录 等 。 


典型 的 交易 处 理 系统 (生成 交易 的 系统 ) 是 SAP 和 Oracle Financials. 


2. Relational database 


A relational database is a digital database whose organization is based on the relational 
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model of data, as proposed by E. F. Codd in 1970. The various software systems used to 
maintain relational databases are known as a relational database management system (RDBMS). 
Virtually all relational database systems use SQL (Structured Query Language) as the language 
for querying and maintaining the database. 

关系 数据 库 是 数字 数据 库 ， 其 组 织 方式 是 基于 E.F.Codd 于 1970 年 提出 的 关系 数据 模 
型 。 用 于 维护 关系 数据 库 的 各 种 软件 系统 被 称 为 关系 数据 库 管 理 系 统 (RDBMS) 。 几 乎 所 
有 关系 数据 库 系 统 都 使 用 SQL 〈 结 构 化 查询 语言 ) 作为 查询 和 维护 数据 库 的 语言 。 

3. Apache Hadoop 

Apache Hadoop ( /ha du : p/) is an open-source software framework used for distributed 

















storage and processing of big data sets using the MapReduce programming model. It consists of 
computer clusters built from commodity hardware. All the modules in Hadoop are designed with 
a fundamental assumption that hardware failures are common occurrences and should be 
automatically handled by the framework. 

The core of Apache Hadoop consists of a storage part, known as Hadoop Distributed File 
System (HDFS), and a processing part which is a MapReduce programming model. Hadoop 
splits files into large blocks and distributes them across nodes in a cluster. It then transfers 
packaged code into nodes to process the data in parallel. This approach takes advantage of data 
locality — nodes manipulating the data they have access to — to allow the dataset to be processed 
faster and more efficiently than it would be in a more conventional supercomputer architecture 
that relies on a parallel file system where computation and data are distributed via high-speed 
networking. 

The base Apache Hadoop framework is composed of the following modules: 

e Hadoop Common - contains libraries and utilities needed by other Hadoop modules; 

e Hadoop Distributed File System (HDFS) — a distributed file-system that stores data on 

commodity machines, providing very high aggregate bandwidth across the cluster: 

e Hadoop YARN - a resource-management platform responsible for managing computing 

resources in clusters and using them for scheduling of users’ applications; 

e  HadoopMapReduce — an implementation of the MapReduce programming model for 

large scale data processing. 

The term Hadoop has come to refer not just to the base modules above, but also to the 
ecosystem, or collection of additional software packages that can be installed on top of or 
alongside Hadoop, such as Apache Pig, Apache Hive, Apache HBase, Apache Phoenix, Apache 
Spark, Apache ZooKeeper, Cloudera Impala, Apache Flume, Apache Sqoop, Apache Oozie, 
Apache Storm. 

Apache Hadoop 是 使 用 MapReduce 编程 模型 开发 分 布 式 存储 和 处 理 大 数据 集 的 开源 软 
件 框架 。 它 是 由 商品 硬件 构成 的 计算 机 集群 .Hadoop 中 的 所 有 模块 都 设计 了 一 个 基本 假设 ， 
即 硬件 故障 是 常见 的 情况 ， 应 由 框架 自动 处 理 。 

Apache Hadoop 的 核心 包括 称 为 Hadoop 分 布 式 文件 系统 (Hadoop Distributed File 
System，HDFS) 的 存储 部 分 ， 以 及 MapReduce 编程 模型 的 处 理 部 分 。Hadoop 将 文件 分 解 
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成 大 块 ， 并 将 它们 分 布 在 集群 中 的 节点 上 。 然 后 将 打包 的 代码 传输 到 节点 中 并 行 处 理 。 这 
种 方法 利用 了 数据 的 局 部 性 一 一 操纵 他 们 访问 的 数据 的 节点 一 一 使 数据 集 的 处 理 速 度 和 效 
率 比 依赖 于 一 个 并 行文 件 系统 的 传统 超级 计算 机 体系 结构 要 快 得 多 、 高 效 得 多 ， 传 统 方式 
中 计算 和 数据 是 通过 高 速 网 络 分 发 的 。 

基础 Apache Hadoop 框架 由 以 下 模块 组 成 : 

Hadoop Common 一 一 包含 其 他 Hadoop 模块 所 需 的 库 和 实用 程序 ; 

Hadoop 分 布 式 文件 系统 CHDFS) 一 一 一 种 分 布 式 文件 系统 , 用 于 存储 商品 机 上 的 数 
据 ， 在 集群 中 提供 非常 高 的 聚合 带宽 ; 

Hadoop YARN 一 一 一 个 资源 管理 平台 ， 负 责 管理 集群 中 的 计算 资源 ， 并 将 其 用 于 调度 
用 户 应 用 程序 ; 

HadoopMapReduce 一 一 用 于 大 规模 数据 处 理 的 MapReduce 编程 模型 的 实现 。 

Hadoop 这 一 术语 不 仅仅 指 上 面 的 基本 模块 ， 还 涉及 一 套 系统 ， 或 者 说 可 以 安装 在 
Hadoop 之 上 或 之 外 的 其 他 软件 包 的 集合 ， 例 如 Apache Pig, Apache Hive, Apache HBase, 
Apache Phoenix Apache Spark，Apache ZooKeeper，Cloudera Impala，Apache Flume，Apache 

















Sqoop，Apache Oozie，Apache Storm。 

4. MapReduce 

MapReduce is a programming model and an associated implementation for processing and 
generating big data sets with a parallel, distributed algorithm on a cluster. 

A MapReduce program is composed of a Map procedure (method) that performs filtering 
and sorting (such as sorting students by first name into queues, one queue for each name) and a 
Reduce method that performs a summary operation (such as counting the number of students in 
each queue, yielding name frequencies). The “MapReduce System" (also called “infrastructure” 
or framework") orchestrates the processing by marshalling the distributed servers, running the 
various tasks in parallel, managing all communications and data transfers between the various 
parts of the system, and providing for redundancyand fault tolerance. 

MapReduce 是 一 种 编程 模型 ， 用 于 在 集群 上 使 用 并 行 分 布 式 算法 处 理 和 生成 大 数据 集 
的 相关 实现 。 

MapReduce 程序 由 执行 过 滤 和 排序 的 映射 过 程 (方法 ) 组 成 (例如 将 学 生 按 姓氏 排列 
成 队列 ， 每 个 姓氏 排 一 列 ) 以 及 执行 汇总 操作 的 Reduce 方法 (例如,， 数 出 每 个 队列 中 的 学 
生 数 量 ， 得 到 姓氏 频率 ) o “MapReduce 系统 ” (也 称 为 “基础 架构 ”或 “框架 ”) 通过 
编组 分 布 式 服务 器 精心 安排 进程 ， 并 行 运行 各 种 任务 ， 管 理 系统 各 部 分 之 间 的 所 有 通信 和 
数据 传输 ， 并 提供 元 余 和 容错 能 力 。 

S. Apache Spark 

Apache Spark, a cluster computing framework. Apache Spark has an advanced DAG 
execution engine that supports acyclic data flow and in-memory computing. Spark offers over 80 
high-level operators that make it easy to build parallel apps. And you can use it interactively 
from the Scala, Python and R shells. Spark powers a stack of libraries including SQL and Data 
Frames, MLlib for machine learning, GraphX, and Spark Streaming. You can combine these 


libraries seamlessly in the same application. Spark runs on Hadoop, Mesos, standalone, or in the 
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cloud. It can access diverse data sources including HDFS, Cassandra, HBase, and S3. 

Apache Spark 是 一 个 集群 计算 框架 。 Apache Spark 具有 支持 非 循环 数据 流 和 内 存 计 算 
的 高 级 DAG 执行 引擎 。Spark 提供 了 超过 80 个 高 级 操作 ， 可 以 轻松 构建 并 行 应 用 程序 。 
用 户 可 以 在 Scala, Python 和 及 shell 中 交互 使 用 。Spark 支持 一 系列 库 ， 包 括 SQL 和 Data 
Frames， 用 于 机 器 学 习 的 MLlib，GraphX 和 Spark Streaming。 用 户 可 以 在 同一 应 用 程序 中 
无 颖 地 组 合 这 些 库 。Spark 可 以 独立 运行 或 在 Hadoop、Mesos、 云 端 运行 。 它 可 以 访问 不 
同 的 数据 源 ， 包 括 HDFS、Cassandra、HBase 和 S3. 

6. Apache Hive 

Apache Hive is a data warehouse infrastructure built on top of Hadoop for providing data 



































summarization, query, and analysis. Hive gives an SQL-like interface to query data stored in 
various databases and file systems that integrate with Hadoop. Traditional SQL queries must be 
implemented in the MapReduceJava API to execute SQL applications and queries over 
distributed data. Hive provides the necessary SQL abstraction to integrate SQL-like Queries 
(HiveQL) into the underlying Java API without the need to implement queries in the low-level 
Java API. Since most data warehousing applications work with SQL-based querying languages, 
Hive supports easy portability of SQL-based application to Hadoop. While initially developed by 
Facebook, Apache Hive is now used and developed by other companies such as Netflix and the 
Financial Industry Regulatory Authority(FINRA). Amazon maintains a software fork of Apache 
Hive that is included in Amazon Elastic MapReduce on Amazon Web Services. 

Apache Hive 是 建立 在 Hadoop 之 上 的 数据 仓库 基础 架构 ， 用 于 提供 数据 汇总 、 查 询 和 
分 析 。 Hive 提供 了 类 似 SQL 的 界面 来 查询 存储 在 与 Hadoop 集成 的 各 种 数据 库 和 文件 系 
统 中 的 数据 。 传 统 的 SQL 查询 必须 在 MapReduce Java API 中 实现 ， 以 便 对 分 布 式 数据 执 
行 SQL 应 用 程序 和 查询 。Hive 提供 必要 的 SQL 抽象 ， 以 将 SQL 类 似 的 查询 CHiveQL) 
集成 到 底层 Java API 中 ， 而 无 须 在 低级 Java API 中 实现 查询 。 由 于 大 多 数 数据 仓库 应 用 程 
序 都 支持 基于 SQL 的 查询 语言 ， 所 以 Hive 支持 将 基于 SQL 的 应 用 程序 很 容易 地 移植 到 
Hadoop。 虽 然 最 初 由 Facebook 开发 ，Apache Hive 现在 由 其 他 公司 (如 Netflix 和 金融 业 监 
管 机 构 CFINRA)) 使 用 和 开发 。 亚 马 逊 维护 包含 在 其 网 络 服务 Amazon Elastic MapReduce 
中 的 Apache Hive 软件 分 支 。 

7. Pig 

Pig (programming tool) is a high-level platform for creating programs that run on Apache 





Hadoop. The language for this platform is called Pig Latin. Pig can execute its Hadoop jobs in 
MapReduce, Apache Tez, or Apache Spark. Pig Latin abstracts the programming from the Java 
MapReduce idiom into a notation which makes MapReduce programming high level, similar to 
that of SQL for RDBMSs. Pig Latin can be extended using User Defined Functions (UDFs) 
which the user can write in Java, Python, JavaScript, Ruby or Groovy and then call directly from 
the language. 

Pig (Afi T.H.) 是 在 Apache Hadoop 上 运行 的 创建 程序 的 高 级 平台 。 这 个 平台 的 语言 
叫 作 Pig Latin. Pig 可 以 在 MapReduce, Apache Tez 或 Apache Spark 中 执行 其 Hadoop 工作 。 
Pig Latin 把 过 程 从 Java MapReduce 习 语 抽象 成 一 个 使 MapReduce 编程 成 为 高 级 别 的 符号 ， 
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与 RDBMS 的 SQL 类 似 。 Pig Latin 可 以 使 用 用 户 定义 的 函数 (UDF) 进行 扩展 ， 这 些 函 
数 可 以 使 用 Java. Python. JavaScript. Ruby 或 Groovy 编写 ， 然 后 直接 调用 。 

8. NoSQL database 

ANoSQL (originally referring to “non SQL”, “non relational” or “not only SQL")database 
provides a mechanism for storage and retrieval of data which is modeled in means other than the 





tabular relations used in relational databases. Such databases have existed since the late 1960s, 
but did not obtain the “NoSQL” moniker until a surge of popularity in the early twenty-first 
century, triggered by the needs of Web 2.0 companies such as Facebook, Google, and 
Amazon.com. NoSQL databases are increasingly used in big data and real-time web applications. 
NoSQL systems are also sometimes called “Not only SQL” to emphasize that they may support 
SQL-like query languages. 

Motivations for this approach include: simplicity of design, simpler “horizontal” scaling to 
clusters of machines (which is a problem for relational databases), and finer control over 
availability. The data structures used by NoSQL databases (e.g. key-value, wide column, graph, 
or document) are different from those used by default in relational databases, making some 
operations faster in NoSQL. The particular suitability of a given NoSQL database depends on the 
problem it must solve. Sometimes the data structures used by NoSQL databases are also viewed 
as “more flexible” than relational database tables. 

NoSQL 数据 库 〈 最 初 指 的 是 “ 非 SQL”“ 非 关系 ”或 “不 只 是 SQL”) 提供 了 一 种 用 
于 存储 和 检索 数据 的 机 制 ， 该 机 制 以 关系 数据 库 中 使 用 的 表格 关系 以 外 的 方式 建 模 。 这 些 
数据 库 自 20 世纪 60 年 代 后 期 就 已 经 存在 ， 直 到 21 世纪 初 ， 由 于 Facebook、Google 和 
Amazon.com 这 样 的 Web 2.0 公司 的 需求 引发 了 人 气 的 激增 ， 它 们 才 获 得 NoSQL 的 绰号 。 
NoSQL 数据 库 越 来 越 多 地 用 于 大 数据 和 实时 网 络 应 用 程序 。 NoSQL 系统 有 时 也 被 称 为 “不 
仅仅 是 SQL ”， 强 调 他 们 可 以 支持 类 似 SQL 的 查询 语言 。 

这 种 方法 的 动机 包括 : 简单 的 设计 、 更 简单 的 “横向 ”缩放 到 机 器 集群 〈 这 是 关系 数 
据 库 的 一 个 问题 ) 以 及 更 好 地 控制 可 用 性 。NoSQL 数据 库 使 用 的 数据 结构 (例如 键 值 、 宽 
列 、 图 形 或 文档 ) 与 关系 数据 库 中 默认 使 用 的 数据 结构 不 同 ， 这 使 得 NoSQL 中 的 某 些 操 
作 更 快 。 给 定 的 NoSQL 数据 库 的 特殊 适用 性 取决 于 它 必须 解决 的 问题 。 有 时 ，NoSQL 数 
据 库 使 用 的 数据 结构 也 被 视 为 比 关系 数据 库 表 更 “灵活 ”。 

9. SQL 

SQL (Structured Query Language) is a domain-specific language used in programming and 
designed for managing data held in a relational database management system (RDBMS), or for 
stream processing in a relational data stream management system (RDSMS). 

Originally based upon relational algebra and tuple relational calculus, SQL consists of a 
data definition language, data manipulation language, and data control language. The scope of 
SQL includes data insert, query, update and delete, schema creation and modification, and data 
access control. Although SQL is often described as, and to a great extent is, a declarative 
language (4GL), it also includes procedural elements. 

SQL was one of the first commercial languages for Edgar F. Codd's relational model, as 
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described in his influential 1970 paper, ^A Relational Model of Data for Large Shared Data 
Banks." Despite not entirely adhering to the relational model as described by Codd, it became 
the most widely used database language. 
SQL (结构 化 查询 语言 》 是 一 种 特定 用 于 数据 领域 的 语言 ， 用 于 编程 和 设计 管理 关系 
数据 库 管 理 系 统 (RDBMS) 中 保存 的 数据 ， 或 用 于 关系 数据 流 管理 系统 (RDSMS) 中 的 
SQL 最 初 是 基于 关系 代数 和 元 组 关系 演算 ， 由 数据 定义 语言 、 数 据 操纵 语言 和 数据 控 
制 语言 组 成 。SQL 的 范围 包括 数据 插入 、 查 询 、 更 新 、 删 除 、 模 式 创建 和 修改 以 及 数据 访 























问 控 制 。 尽 管 SQL 通常 被 描述 为 并 且 在 很 大 程度 上 是 声明 性 语言 (4GL)， 它 也 包含 过 程 
元 素 。 


如 在 著名 的 1970 年 的 文章 “大 型 共享 数据 库 数据 的 关系 模型 ”所 述 ，SQL 是 Edgar F. 
Codd 的 关系 模型 的 第 一 种 商业 语言 之 一 。 尽 管 没 有 完全 遵循 Codd 所 述 的 关系 模型 ， 但 它 
已 成 为 使 用 最 为 广泛 的 数据 库 语言 。 

10. Ad hoc queries 

特定 数据 查询 (Ad Hoc) 是 用 户 根据 自己 的 需求 灵活 地 选择 查询 条 件 ， 系 统 能 够 根据 
用 户 的 选择 生成 相应 的 统计 报表 。 特 定数 据 查 询 与 普通 应 用 查询 最 大 的 不 同 是 普通 的 应 用 
查询 是 定制 开发 的 ， 而 特定 数据 查询 是 由 用 户 自 定义 查询 条 件 的 。 

11. cloud-based analytics 

Cloud analytics is a marketing term for businesses to carry out analysis using cloud 
computing. It uses a range of analytical tools and techniques to help companies extract 
information from massive data and present it in a way that is easily categorized and readily 
available via a web browser. 

云 分 析 是 企业 使 用 云 计算 进行 分 析 的 营销 术语 。 它 使 用 了 一 系列 分 析 工 具 和 技术 ， 帮 
助 企 业 从 海量 数据 中 提取 信息 ， 并 以 一 种 易于 分 类 和 易于 通过 网 络 浏览 器 获得 的 方式 呈现 
信息 。 

12. in-memory analytics 

In-memory analytics is an approach to querying data when it resides in a computer's 
random access memory (RAM), as opposed to querying data that is stored on physical disks. 
This results in vastly shortened query response times, allowing business intelligence (BI) and 
analytic applications to support faster business decisions. 

As the cost of RAM declines, in-memory analytics is becoming feasible for many 
businesses. BI and analytic applications have long supported caching data in RAM, but older 
32-bit operating systems provided only 4 GB of addressable memory. Newer 64-bit operating 
systems, with up to 1 terabyte (TB) addressable memory (and perhaps more in the future), have 
made it possible to cache large volumes of data — potentially an entire data warehouse or data 
mart — in a computer's RAM. 

In addition to providing incredibly fast query response times, in-memory analytics can 
reduce or eliminate the need for data indexing and storing pre-aggregated data in OLAPcubes or 


aggregate tables. This reduces IT costs and allows faster implementation of BI and analytic 
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applications. It is anticipated that as BI and analytic applications embrace in-memory analytics, 
traditional data warehouses may eventually be used only for data that is not queried frequently. 

内 存 分 析 是 在 数据 驻 留 于 计算 机 的 随机 存 取 存 储 器 CRAM) 中 时 查询 数据 的 方法 ， 而 
不 是 查询 存储 在 物理 磁盘 上 的 数据 。 这 就 大 大 缩短 了 查询 响应 时 间 , 从 而 允许 商业 智能 (BI) 

分析 应 用 程序 支持 更 快 的 业务 决策 。 

随 着 RAM 成 本 的 下 降 ， 内 存 分 析 对 于 许多 企业 而 言 变 得 可 行 。 商 业 智能 和 分 析 应 用 
程序 长 期 支持 在 RAM 中 缓存 数据 ， 但 较 旧 的 32 位 操作 系统 只 提供 AGB 的 可 寻 址 内 存 。 
较 新 的 64 位 操作 系统 具有 高 达 ITB 的 可 寻 址 内 存 〈 将 来 可 能 会 更 大 )， 使 得 在 计算 机 的 
RAM 中 缓存 整个 数据 仓库 或 数据 库 的 大 量 数据 变 得 可 能 。 

除了 提供 令 人 难以 置信 的 快速 查询 响应 之 外 ， 内 存 分 析 可 以 减少 或 消除 在 OLAPcubes 
或 聚合 表 中 进行 数据 索引 并 存储 预 聚 合 数据 的 需求 。 这 可 以 降低 IT 成 本 , 并 可 以 使 商业 智 
能 和 分 析 应 用 程序 更 快 地 实施 。 由 于 商业 智能 和 分 析 应 用 程序 在 内 存 分 析 中 的 应 用 ， 传 统 
的 数据 仓库 最 终 只 能 用 于 存储 不 经 常 查询 的 数据 。 








Comprehension 


Blank filling 
. Big data analytics is the process of examining large data sets to uncover hidden 


unknown , market , customer and other useful business 
information. 

. The primary goal of big data analytics is to help companies make more informed business 
decisions by enabling . predictive and other analytics 


N 


professionals to analyze large volumes of . as well as other forms of 
data that may be untapped by conventional business intelligence(BI) programs. 

. Many organizations looking to and big data have turned 
to a newer class of technologies that mudes Hadoop and related such as YARN, 
MapReduce, Spark, Hive and Pig as well as NoSQL database. Those technologies form 
the core of an open source software that supports the processing of large and 


w 








diverse data sets across systems. 

4. In some cases, Hadoop clusters and NoSQL systems are being used as 
and for data before it gets loaded into a data warehouse for analysis, often 
in a summarized form that is more to relational structures. 


tA 


. Big data can be analyzed with the software tools commonly used as part of advanced 
analytics disciplines such as E e and 





. Big data analytics helps organizations harness their data and use it to 


an 


That, in turn, leads to smarter . more efficient operations, higher 
and happier customers. 

Content Questions 

1. What is the big data analytics? 
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2. What can analytical finding of big data lead to? 

3. What is the primary goal of data analytics? 

4. What kind of data is analyzed by data analytics? 

5. Why do organization turn to big data analytics? 

6. What technologies form the core of an open source software framework? 

7. What are the potential pitfalls that can trip up organizations on big data analytics initiatives? 
8. In what ways do businesses get values from big data analytics? 


Answers 


Blank filling 

1. patterns; correlations; trends; preferences 

2. data scientists; modelers; transaction data 

3. collect; process; analyze: tools; framework; clustered 

4. landing pads; staging areas; conducive 

5. predictive analytics; data mining; text analytics; statistical analysis 

6. identify new opportunities; business moves; profits 

Content Questions 

1. Big data analytics is the process of examining large data sets to uncover hidden patterns, 
unknown correlations, market trends, customer preferences and other useful business 
information. 

2. The analytical findings can lead to more effective marketing, new revenue opportunities, 
better customer service, improved operational efficiency, competitive advantages over 
rival organizations and other business benefits. 

3. The primary goal of big data analytics is to help companies make more informed 
business decisions by enabling data scientists, predictive modelers and other analytics 
professionals to analyze large volumes of transaction datal, as well as other forms of data 
that may be untapped by conventional business intelligence(BI) programs. 

4. Analyze large volumes of transaction datal, as well as other forms of data that may be 
untapped by conventional business intelligence(BI) programs. That could include Web 
server logs and Internet clickstream data, social media content and social network 
activity reports, text from customer emails and survey responses, mobile-phone call 
detail records and machine data captured by sensors connected to the Internet of Things. 

5. Semi-structured and unstructured data may not fit well in traditional data warehousesbased on 
relational databases. Furthermore, data warehouses may not be able to handle the 
processing demands posed by sets of big data that need to be updated frequently or even 
continually — for example, real-time data on the performance of mobile applications or of 


oil and gas pipelines. As a result, many organizations turn to big data analytics. 
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6. Technologies include Hadoop and related tools such as YARN, MapReduce, Spark, Hive 
and Pig as well as NoSQL database. 

7. Potential pitfalls that can trip up organizations on big data analytics initiatives include a 
lack of internal analytics skills and the high cost of hiring experienced analytics 
professionals. 

8. They got value in the following ways: Cost reduction; Faster, better decision making; 
New products and services. 
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大 数据 分 析 是 对 大 数据 集 进 行 检查 以 发 现 隐藏 模式 、 未 知 相关 性 、 市 场 趋势 、 客 户 喜 
好 和 其 他 有 用 商业 信息 的 过 程 。 分 析 结 果 可 以 带 来 更 有 效 的 营销 、 新 的 收入 机 会 、 更 好 的 
客户 服务 、 提 高 的 运营 效率 、 超 过 对 手 的 竞争 优势 和 其 他 业务 收益 。 

大 数据 分 析 的 主要 目标 是 帮助 公司 通过 数据 科学 家 、 预 测 建 模 者 和 其 他 分 析 专 业 人 员 
对 大 量 的 交易 数据 的 分 析 而 做 出 更 明智 的 业务 决策 ， 以 及 可 能 未 被 传统 商业 智能 BD i 
划 开 发 出 的 其 他 形式 的 数据 。 那 些 数据 包括 Web 服务 器 日 志和 互联 网 点 击 流 数据 、 社 交 媒 
体内 容 和 社交 网 络 活动 报告 、 来 自 客 户 电 子 邮件 和 调查 响应 的 文本 、 移 动 电话 通话 记录 和 
连接 到 物 联 网 的 传感器 捕获 的 机 器 数据 。 

半 结 构 化 和 非 结构 化 数据 可 能 不 适合 基于 关系 数据 库 的 传统 数据 仓库 。 此 外 ， 数 据 仓 
库 可 能 无 法 处 理 需 要 频繁 更 新 甚至 持续 更 新 的 大 型 数据 集合 所 产生 的 处 理 需 求 ， 例 如 关于 
移动 应 用 程序 或 油气 管道 性 能 的 实时 数据 。 因 此 ， 许 多 寻求 收集 、 处 理 和 分 析 大 数据 的 组 
织 已 经 转向 包括 Hadoop 和 YARN、MapReduce、Spark、Hive、Pig 以 及 NoSQL 数据 库 等 
相关 工具 在 内 的 新 一 类 技术 。 这 些 技术 构成 了 一 个 开源 软件 框架 的 核心 ， 该 框架 支持 跨 群 
集 系统 处 理 大 型 和 多 样 化 的 数据 集 。 

在 某 些 情况 下 , 在 将 数据 加 载 到 数据 仓库 进行 分 析 之 前 Hadoop 集群 和 NoSQL 系统 正 
被 用 作 数据 的 着 陆 点 和 分 段 区 域 ， 通 常 是 更 有 利于 关系 结构 的 概述 形式 。 越 来 越 多 的 大 数 
据 供 应 商 正 在 推动 一 个 Hadoop 数据 池 的 概念 ， 该 数据 池 作为 组 织 传 入 的 原始 数据 流 的 中 
央 存 储 库 。 在 这 样 的 架构 中 ， 数 据 的 子 集 可 以 过 滤 以 便 在 数据 仓库 和 分 析 数 据 库 中 进行 分 
析 ， 或 者 可 以 直接 使 用 Hadoop 中 批 处 理 查询 工具 、 流 处 理 软件 和 运行 在 Hadoop 技术 中 的 
交互 式 、 特 殊 查 询 的 结构 化 查询 语言 进行 分 析 。 

大 数据 可 以 用 常用 的 高 级 分 析 软 件 工具 进行 分 析 ， 例 如 预测 分 析 、 数 据 挖掘、 文本 分 
析 和 统计 分 析 。 主 流 商业 智能 软件 和 数据 可 视 化 工具 也 可 以 在 分 析 过 程 中 发 挥 作用 。 

潜在 的 缺陷 可 能 使 组 织 在 大 数据 分 析 上 出 错 ， 包 括 缺 乏 内 部 分 析 技 能 以 及 雇用 具有 丰 
富 经 验 的 分 析 专 家 的 高 成 本 。 通 常 涉及 的 信息 量 及 其 多 样 性 也 可 能 导致 数据 管理 问题 ， 包 
括 数据 质量 和 一 致 性 问题 。 此 外 ， 尽 管 现在 供应 商都 提供 Hadoop 和 关系 数据 库 之 间 的 软 
件 连接 ， 以 及 具有 大 数据 能 力 的 其 他 数据 集成 工具 ， 集 成 Hadoop 系统 和 数据 仓库 可 能 仍 
然 存在 挑战 。 

为 什么 大 数据 分 析 很 重要 ? 

大 数据 分 析 可 帮助 企业 利用 数据 并 利用 数据 来 识别 新 的 机 会 。 这 反 过 来 又 会 带 来 更 智 
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能 的 商业 运作 、 更 高 效 的 运营 、 更 高 的 利润 和 更 高 的 客户 满意 度 。 在 大 公司 的 大 数据 报告 
H, TIA 研究 总 监 汤姆 。 达 文 波 特 (Tom Davenport) 采访 了 50 多 家 企业 ， 了 解 他 们 如 何 使 
用 大 数据 。 他 发 现 他 们 获得 价值 的 方式 : 

C1) 降低 成 本 。 大 数据 技术 ， 如 Hadoop 和 基于 云 的 分 析 在 存储 大 量 数据 方面 带 来 了 
显著 的 成 本 优势 ， 此 外 ， 他 们 还 可 以 识别 更 有 效 的 经 商 方式 。 

(2) 更 快 、 更 好 的 决策 。 随 着 Hadoop 和 内 存 分 析 的 速度 加 上 分 析 新 数据 源 的 能 力 ， 
企业 能 够 立即 分 析 信 息 ， 并 根据 他 们 了 解 到 的 信息 做 出 决策 。 

G) 新 产品 和 服务 。 通 过 分 析 来 衡量 客户 需求 和 满意 度 的 能 力 使 得 公司 能 够 为 客户 提 
供 他 们 想 要 的 。 达 文 波 特 指出 通过 大 数据 分 析 ， 更 多 的 公司 正在 创造 新 产品 以 满足 客户 的 
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Big Data Analytics with Hadoop New Words and Expressions 


Apache Hadoop™ was born out of a need to process an avalanche | avalanche/' vola:nf/ 
of big data. The web was generating more and more information on EZ 
a daily basis, and it was becoming very difficult to index over one | retail /‘ri:.terl/ 


billion pages of content. In order to cope, Google invented a new | FẸ, 3; 转述 ; 传播 ; 零售 的 
style of data processing known as MapReduce. A year after Google | terabyte (TB), petabyte (PB) 


published a white paper describing the MapReduce framework, | 信息 度量 单位 ，1PB=1024TB 


Doug Cutting and Mike Cafarella, inspired by the white paper, | commodity/ko mvd.o.ti/ 


created Hadoop to apply these concepts to an open-source software’ 商品 ; 有 价值 的 物品 ; AF, Ait 


framework to support distribution for the Nutch search engine 





project. Given the original case, Hadoop was designed with a 
simple write-once storage infrastructure. 

Hadoop has moved far beyond its beginnings in web indexing 
and is now used in many industries for a huge variety of tasks that 
all share the common theme of lots of variety, volume and velocity 
of data — both structured and unstructured. It is now widely used 
across industries, including finance, media and entertainment, 
government, healthcare, information services, retail, and other 
industries with big data requirements but the limitations of the 
original storage infrastructure remain. 

Hadoop is increasingly becoming the go-to framework for 
large-scale, data-intensive deployments. Hadoop is built to process 
large amounts of data from terabytes to petabytes and beyond. With 
this much data, it's unlikely that it would fit on a single computer's 





hard drive, much less in memory. The beauty of Hadoop is that it is 
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designed to efficiently process huge amounts of data by connecting 
many commodity computers together to work in parallel. Using the 
MapReduce model, Hadoop can take a query over a dataset, divide 
it, and run it in parallel over multiple nodes. Distributing the 
computation solves the problem of having data that's too large to fit 
onto a single machine. 

Hadoop Software 

The Hadoop software stack introduces entirely new economics 
for storing and processing data at scale. It allows organizations 
unparalleled flexibility in how they're able to leverage data of all 
shapes and sizes to uncover insights about their business. Users can 
now deploy the complete hardware and software stack including the 
OS and Hadoop software across the entire cluster and manage the 
full cluster through a single management interface. 

Apache Hadoop includes a Distributed File System (HDFS)’, 
which breaks up input data and stores data on the compute nodes. 
This makes it possible for data to be processed in parallel using all 
of the machines in the cluster. The Apache Hadoop Distributed File 
System is written in Java and runs on different operating systems. 

Hadoop was designed from the beginning to accommodate 
multiple file system implementations and there are a number 
available. HDFS and the S3 file system are probably the most 
widely used, but many others are available, including the MapR 
File System. 

How is Hadoop Different from Past Techniques? 

Hadoop can handle data in a very fluid way. Hadoop is 
more than just a faster, cheaper database and analytics tool. Unlike 
databases, Hadoop doesn't insist that you structure your data. Data 
may be unstructured and schemaless. Users can dump their data 
into the framework without needing to reformat it. By contrast, 
relational databases require that data be structured and schemas be 
defined before storing the data. 

Hadoop has a simplified programming model. Hadoop's 
simplified programming model allows users to quickly write and 
test software in distributed systems. Performing computation on 
large volumes of data has been done before, usually in a distributed 
setting but writing software for distributed systems is notoriously 


hard. By trading away some programming flexibility, Hadoop 








New Words and Expressions 
unparalleled /An'pzr.ol.eld/ 
无 比 的 ， 无 双 的 ， 空 前 的 
leverage /'li:.vor.1d5/ 
杠杆 作用 ; 3. JE; 影响 力 
Distributed File System (HDFS) 
分 布 式 文件 系统 
fluid /fu:Id/ 
液体 ; 流动 的 ; HEH, FH 
定 的 
dump /damp/ 
倾倒 ; AE. HE; 摆脱 ， 扔 弃 ; 
卸货 ;垃圾 场 ; 仓库 
relational database 


关系 数据 库 
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makes it much easier to write distributed programs. 

Because Hadoop accepts practically any kind of data, it stores 
information in far more diverse formats than what is typically found 
in the tidy rows and columns of a traditional database. Some good 
examples are machine-generated data and log data, written out in 
storage formats including JSON, Avro and ORC. 

The majority of data preparation work in Hadoop is currently 
being done by writing code in scripting languages like Hive, Pig or 
Python. 

Hadoop is easy to administer. Alternative high performance 
computing (HPC)'systems allow programs to run on large 
collections of computers, but they typically require rigid program 
configuration and generally require that data be stored on a separate 
storage area network (SAN) system. Schedulers on HPC clusters 
require careful administration and since program execution is 
sensitive to node failure, administration of a Hadoop cluster is 
much easier. 

Hadoop invisibly handles job control issues such as node 
failure. If a node fails, Hadoop makes sure the computations are run 
on other nodes and that data stored on that node are recovered from 
other nodes. 

Hadoop is agile. Relational databases are good at storing and 
processing data sets with predefined and rigid data models. For 
unstructured data, relational databases lack the agility and 
scalability that is needed. Apache Hadoop makes it possible to 
cheaply process and analyze huge amounts of both structured and 
unstructured data together, and to process data without defining all 
structure ahead of time. 

Why use Apache Hadoop? 

It's cost effective. Apache Hadoop controls costs by storing 
data more affordably per terabyte than other platforms. Instead of 
thousands to tens of thousands per terabyte, Hadoop delivers 
compute and storage for hundreds of dollars per terabyte. 

Its fault-tolerant. Fault tolerance is one of the most 
important advantages of using Hadoop. Even if individual nodes 
experience high rates of failure when running jobs on a large 
cluster, data is replicated across a cluster so that it can be recovered 


easily in the face of disk, node or rack failures. 
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New Words and Expressions 
notoriously /no'to:.ri.os/ 

著名 地 ; 众所周知 地 ; 声名 狼藉 
地 
scripting language 

脚本 语言 ， 手 稿 程序 语言 
high performance computing 
System 

高 性 能 计算 机 系统 (HPC ) 
configuration 
/kan ,frg.a rer. fon/ 

布局 ， 构 造 ; 配置 ; [ 物 ] 位 形 ， 

组 态 
storage area network (SAN) 
System 

独立 存储 区 域 网 络 系统 
agile /'zd;.ail/ 

灵巧 的 ; 轻快 的 ; 机 敏 的 
scalability/ sker.lo'bil.o.ti/ 

可 量 测 性 
fault tolerance 

容错 性 
replicate/ rep.lr.kert/ 

复制 ; 重复 ， 反 复 ; 复制 品 
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It's flexible. The flexible way that data is stored in Apache | New Words and Expressions 
Hadoop is one of its biggest assets — enabling businesses to | flexible/ flek.so.bol/ 
generate value from data that was previously considered too | RHH; 易 弯 曲 的 ; 易 被 说 服 的 
expensive to be stored and processed in traditional databases. With | scalable/'sker.lo.bal/ 
Hadoop, you can use all types of data, both structured and | 可 升级 的 ; 可 扩展 的 ; 可 攀登 的 
unstructured, to extract more meaningful business insights from | relational database management 
more of your data. systems (RDBMS) 

Its scalable. Hadoop is a highly scalable storage platform, 关系 数据 库 管理 系统 
because it can store and distribute very large data sets across 
clusters of hundreds of inexpensive servers operating in parallel. 
The problem with traditional relational database management 
systems (RDBMS)Ó is that they can't scale to process massive 





volumes of data. 
Note: 
The text is adapted from the website: 
https://www.mapr.com/products/apache-hadoop. 





Terms 


1. Open-source software 

Open-source software (OSS) is computer software with its source code made available with 
a license in which the copyright holder provides the rights to study, change, and distribute the 
software to anyone and for any purpose. Open-source software may be developed in a 
collaborative public manner. According to scientists who studied it, open-source software is a 
prominent example of open collaboration. A 2008 report by the Standish Group states that 
adoption of open-source software models has resulted in savings of about $60 billion (£48 billion) 
per year to consumers. 

In particular, the heightened value proposition from open source in the following categories: 

e Security 

e Affordability 

e Transparency 

e Perpetuity 

* Interoperability 

e Flexibility 

* Localization 

开源 软件 COSS) 是 提供 其 源 代码 许可 证 的 计算 机 软件 ， 版 权 所 有 者 可 以 向 任何 人 以 
任何 目的 提供 研究 、 更 改 和 分 发 软件 的 权利 。 开 源 软件 可 以 以 协作 的 方式 开发 。 据 相关 科 
学 家 说 ， 开 源 软件 是 开放 式 协 作 的 一 个 突出 的 例子 。Standish Group 2008 年 的 一 份 报告 指 
出 ， 采 用 开源 软件 模型 每 年 给 消费 者 节省 了 约 600 亿美 元 (AVA 480 亿 英 镑 )。 


Chapter 3 Big Data Analytics 


特别 是 在 以 下 各 方面 开放 源 代码 具有 极 高 的 价值 : 

安全 ， 负 担 能 力 ， 透 明度 ， 永 久 性 ， 互 操作 性 ， 灵 活性 ， 本 地 化 。 

2. Apache Nutch 

Apache Nutch is a highly extensible and scalable open source web crawler software project. 
Nutch is coded entirely in the Java programming language, but data is written in 
language-independent formats. It has a highly modular architecture, allowing developers to 
create plug-ins for media-type parsing, data retrieval, querying and clustering. Nutch originated 
with Doug Cutting, creator of both Lucene and Hadoop, and Mike Cafarella. 

Nutch has the following advantages over a simple fetcher: 

e Highly scalable and relatively feature rich crawler. 

e Features like politeness, which obeys robots.txt rules. 

e Robust and scalable — Nutch can run on a cluster of up to 100 machines. 

* Quality — crawling can be biased to fetch "important" pages first. 

Apache Nutch 是 一 个 高 度 可 扩展 \ 可 升级 的 开源 Web Me d £c PE SLA ;Nutch 完全 以 Java 
编程 语言 编码 ， 但 是 数据 是 用 语言 无 关 的 格式 编写 的 。 它 具有 高 度 模块 化 的 架构 ， 允 许 开 
发 人 员 创建 用 于 媒体 类 型 解析 、 数 据 检 索 、 查 询 和 聚 类 的 插件 。Nutch 由 Doug Cutting 和 
Mike Cafarella 共同 开创 ， 其 中 Doug Cutting 还 是 Lucene 和 Hadoop 的 创始 人 。 

Nutch 相对 于 简单 的 抓 取 具有 以 下 优点 : 

。 高 度 可 扩展 性 和 相对 丰富 的 爬虫 功能 ; 

。 规范 性 ， 遵 守 robots.txt 规则 ; 

。 健壮 性 和 可 扩展 性 一 一 Nutch 可 以 在 多 达 100 台 机 器 的 集群 上 运行 ; 

。 质量 一 一 候 行 偏向 于 先 获 取 “ 重 要 ”页 面 。 

3. Distributed File 

Distributed File System (DFS) is a set of client and server services that allow an 
organization using Microsoft Windows servers to organize many distributed SMB file shares 
into a distributed file system. DFS provides location transparency (via the namespace component) 
and redundancy (via the file replication component) to improve data availability in the face of 
failure or heavy load by allowing shares in multiple different locations to be logically grouped 
under one folder, or DFS root. 

The Distributed File System (DFS) technologies offer wide area network (WAN)-friendly 
replication as well as simplified, highly-available access to geographically dispersed files. The 
two technologies in DFS are the following: 

DFS Namespaces. Enables you to group shared folders that are located on different servers 
into one or more logically structured namespaces. Each namespace appears to users as a single 
shared folder with a series of subfolders. 

DFS Replication. DFS Replication is an efficient, multiple-master replication engine that 
you can use to keep folders synchronized between servers across limited bandwidth network 


connections. 
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分 布 式 文件 系统 (DFS) 是 客户 端 和 服务 器 服务 的 一 个 组 合 ， 人 允许 组 织 使 用 Microsoft 
Windows 服务 器 将 许多 分 布 式 SMB 文件 共享 组 织 到 分 布 式 文件 系统 中 。DFS 通过 允许 在 
一 个 文件 夹 或 DFS 根 目录 下 有 逻辑 地 分 组 ， 提 供 位 置 透明 度 〈 通 过 命名 空间 组 件 ) 和 元 余 
〈 通 过 文件 复制 组 件 ) 来 提高 面 对 故 障 或 重负 载 的 数据 可 用 性 。 

分 布 式 文件 系统 (DFS) 技术 提供 广域网 CWAN) 一 一 友好 复制 以 及 简化 ， 高 可 用 性 
访问 物理 位 置 分 散 的 文件 。 

DFS 中 的 两 项 技术 如 下 : 

DFS 命名 空间 。DFS 命名 空间 能 够 将 位 于 不 同 服务 器 上 的 共享 文件 夹 分 组 为 一 个 或 多 
个 逻辑 结构 的 命名 空间 。 每 个 命名 空间 对 用 户 显 示 为 具有 一 系列 子 文件 夹 的 单个 共享 文 
件 夹 。 

DES 复制 。DFS 复制 是 一 种 高 效 的 多 主 复制 引擎 ， 可 用 于 通过 有 限 带 宽 网 络 连接 在 文 
件 夹 间 保持 文件 夹 同步 。 

4. High performance computing 

High Performance Computing (HPC) most generally refers to the practice of aggregating 
computing power in a way that delivers much higher performance than one could get out of a 
typical desktop computer or workstation in order to solve large problems in science, engineering, 
or business. 

High performance computers of interest to small and medium-sized businesses today are 
really clusters of computers. Each individual computer in a commonly configured small cluster 
has between one and four processors, and today's processors typically have from two to four 
cores. HPC people often refer to the individual computers in a cluster as nodes. A cluster of 
interest to a small business could have as few as four nodes, or 16 cores. A common cluster size 
in many businesses is between 16 and 64 nodes, or from 64 to 256. 

The point of having a high performance computer is so that the individual nodes can work 
together to solve a problem larger than any one computer can easily solve. And, just like people, 
the nodes need to be able to talk to one another in order to work meaningfully together. Of 
course computers talk to each other over networks, and there are a variety of computer network 
(or interconnect) options available for business cluster. 

高 性 能 计算 (HPC) 通常 指 的 是 将 计算 能 力 集合 起 来 的 方法 ， 这 种 方法 可 以 提供 比 一 

台式 计算 机 或 工作 站 更 高 的 性 能 ， 以 解决 科学 、 工 程 或 商业 中 的 大 问题 。 

目前 中 小 型 企业 感 兴趣 的 高 性 能 计算 机 实际 上 是 计算 机 集群 。 通 常 配置 的 小 型 集群 中 


的 每 台 计 算 机 都 有 1 一 4 个 处 理 器 ， 而 今天 的 处 理 器 通常 有 2 一 4 个 内 核 。HPC 人 员 经 常 将 
集群 中 的 单个 计算 机 称 为 节点 。 一 个 小 企业 感 兴趣 的 集群 可 能 只 有 4 个 节点 ， 即 16 个 核 。 
许多 企业 中 的 常见 集群 大 小 在 16—64 个 节点 ， 或 从 64 一 256 个 节点 。 


具有 高 性 能 的 计算 机 的 要 点 是 各 个 节点 可 以 一 起 工作 来 解决 比 任何 一 台 计 算 机 能 解 
决 问题 更 大 的 问题 。 而 且 ， 就 像 人 一 样 ， 节 点 之 间 需 要 能 够 彼此 交谈 ， 以 便 有 效 工作 。 当 
然 计算 机 通过 网 络 相互 通信 ， 并且 有 各 种 各 样 的 计算 机 网 络 (或 互联 ) 可 供 商业 集群 选择 。 

5. Storage area network 

A storage-area network (SAN) is a dedicated high-speed network(or subnetwork) that 


Chapter 3 Big Data Analytics 


interconnects and presents shared pools of storage devices to multiple servers. 

A storage-area network is typically assembled using three principle components: cabling, 
host bus adapters (HBAs) and switches. Each switch and storage system on the SAN must be 
interconnected and the physical interconnections must support bandwidth levels that can 
adequately handle peak data activities. 

Storage-area networks are managed centrally, and Fibre Channel (FC) SANs have the 
reputation of being expensive, complex and difficult to manage. The emergence of SCSI has 
reduced these challenges by encapsulating SCSI commands into IP packets for transmission over 
an Ethernet connection, rather than an FC connection. Instead of learning, building and 
managing two networks — an Ethernet local-area network (LAN) for user communication and an 
FC SAN for storage — an organization can now use its existing knowledge and infrastructure for 
both LANs and SANs. 

存储 区 域 网 络 (SAND 是 一 种 专用 的 高 速 网 络 (或 子 网 络 )， 它 将 多 个 存储 设备 的 共 
享 池 互联 ， 并 展现 给 多 个 服务 器 。 

存储 区 域 网 络 通常 由 三 个 主要 组 件 组 成 :布线 、 主 机 总 线 适配器 (HBA) 和 交换 机 。 
SAN 上 的 每 个 交换 机 和 存储 系统 必须 互联 , 并 且 物 理 互联 必须 支持 可 以 充分 处 理 峰值 数据 
活动 的 带宽 级 别 。 

存储 区 域 网 络 集中 管理 ， 光 纤 通 道 (FC) SAN 的 价格 昂贵 、 复 杂 且 难以 管理 。SCSI 
的 出 现 减 少 了 这 些 问 题 ， 将 SCSI 命 令 封 装 到 了 他 数据 包 中 ， 并 通过 以 太 网 连接 传输 ， 而 不 
是 FC 连接 进行 传输 。 企业 现在 可 以 将 其 现 有 的 知识 和 基础 架构 用 于 LAN 和 SAN, 代替 掌握 、 
构建 和 管理 两 个 网 络 一 一 用 于 用 户 通 信 的 以 太 网 局 域 网 (LAN) 和 用 于 存储 的 FC SAN. 


6. Relational database management system 





A relational database management system (RDBMS) is a database management system 
(DBMS) that is based on the relational model as invented by E. F. Codd, of IBM's San Jose 
Research Laboratory. In 2017, many of the databases in widespread use are based on the 
relational database model. 

RDBMS has been a common choice for the storage of information in new databases used 
for financial records, manufacturing and logistical information, personnel data, and other 
applications since the 1980s. Relational databases have often replaced legacy hierarchical 
databases and network databases because they are easier to understand and use. However, 
relational databases have received unsuccessful challenge attempts by object database 
management systems in the 1980s and 1990s and also by XML database management systems in 
the 1990s. Despite such attempts, RDBMS keep most of the market share, which has also grown 
over the years. 

关系 数据 库 管 理 系统 (RDBMS) 是 基于 IBM San Jose 研究 实验 室 的 E. F. Codd 发 明 的 
关系 模型 的 数据 库 管 理 系统 (DBMS )。 在 2017 年 ， 许 多 广泛 使 用 的 数据 库 都 是 基于 关系 
数据 库 模 型 。 

自 20 世纪 80 年 代 以 来 ，RDBMS 一 直 是 用 于 财务 记录 、 制 造 和 后 勤 信息 、 人 事 数 据 
和 其 他 应 用 程序 的 新 数据 库 中 信息 存储 的 常用 选择 。 关 系数 据 库 往往 取代 传统 的 分 层 数 据 
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库 和 网 络 数据 库 ， 因 为 它们 更 易于 理解 和 使 用 。 然 而 ， 关 系数 据 库 在 20 世纪 80 年 代 和 90 
年 代 受 到 对 象 数据 库 管 理 系统 的 挑战 ， 在 20 世纪 90 年 代 也 受到 XML 数据 库 管 理 系统 的 
挑战 。 尽 管 有 这 样 的 威胁 ，RDBMS 还 是 保住 了 大 部 分 市 场 份额 ， 并 多 年 来 保持 持续 增长 。 











Comprehension 

Blank filling 

1. Hadoop has moved far beyond its beginnings in web and is now used in many 
industries for a huge variety of tasks that all share the common theme of lots of à 

and of data — both structured and unstructured. 

2. Using the MapReduce model, Hadoop can take a over a dataset, divide it, and 
run it in parallel over multiple . Distributing the computation solves the problem 
of having data that's too large to fit onto a machine. 

3. Apache Hadoop includes a Distributed File System (HDFS), which breaks up 
data and stores data on the . This makes it possible for data to be processed 


using all of the machines in the 
4. Hadoop's simplified programming model allows users to quickly write and test software 
in systems. 
Content Questions 
1. Why did Google invent a new style of data processing known as MapReduce? 
2. Where is Hadoop used? 
3. What is the good point of Hadoop? 
4. What can Hadoop software stack do? 
5. What is the difference between Hadoop and databases? 
6. How is Hadoop different from past techniques? 
7. Why do we use Apache Hadoop? 


Answers 


Blank filling 

lindexing; variety; volume; velocity 

2.query; nodes; single 

3. input; compute nodes; in parallel; cluster 

4. distributed 

Content Questions 

l. The web was generating more and more information on a daily basis, and it was 
becoming very difficult to index over one billion pages of content. In order to cope, Google 
invented a new style of data processing known as MapReduce. 


2. It is now widely used across industries, including finance, media and entertainment, 
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government, healthcare, information services, retail, and other industries with big data 
requirements but the limitations of the original storage infrastructure remain. 

3. The beauty of Hadoop is that it is designed to efficiently process huge amounts of data by 
connecting many commodity computers together to work in parallel. 

4. The Hadoop software stack introduces entirely new economics for storing and processing 
data at scale. It allows organizations unparalleled flexibility in how they're able to leverage data 
of all shapes and sizes to uncover insights about their business. Users can now deploy the 
complete hardware and software stack including the OS and Hadoop software across the entire 
cluster and manage the full cluster through a single management interface. 

5. Unlike databases, Hadoop doesn't insist that you structure your data. Data may be 
unstructured and schemaless. Users can dump their data into the framework without needing to 
reformat it. By contrast, relational databases require that data be structured and schemas be 
defined before storing the data. 

6. Hadoop can handle data in a very fluid way. 

Hadoop has a simplified programming model. 

Hadoop is easy to administer. 

Hadoop is agile. 

7. It's cost effective. It's fault-tolerant. It's flexible. It's scalable. 


参考 译文 


使 用 Hadoop 进行 大 数据 分 析 

Apache Hadoop" 的 产生 源 于 对 大 量 数据 的 处 理 需 求 。 网 络 每 天 都 在 产生 越 来 越 多 的 信 
息 ， 而 且 很 难 将 十 多 亿 页 内 容 进行 索引 。 为 了 应 对 这 种 情况 ，Google 发 明了 一 种 称 为 
MapReduce 的 新 型 数据 处 理 方式 。 在 Google 发 布 了 一 篇 描述 MapReduce 框架 的 白皮书 一 
年 之 后 ，Doug Cutting 和 Mike Cafarella 在 白皮书 的 启发 下 创建 了 Hadoop， 将 这 些 概 念 应 
用 于 开源 软件 框架 以 支持 Nutch 搜索 引擎 项 目的 分 发 。 在 最 初 的 情况 下 ，Hadoop 是 用 简单 
的 一 次 写 入 存储 基础 设施 设计 的 。 

Hadoop 已 经 不 限 用 于 最 初时 的 网 络 索引 , 现在 已 经 使 用 在 许多 行业 的 多 种 任务 中 , 这 
些 任务 分 布 于 关于 数据 〈 包 括 结构 化 和 非 结构 化 数据 ) 的 多 样 性 、 数 据 量 和 数据 处 理 速度 
等 的 各 种 普 适 主题 。 它 现在 广泛 应 用 于 包括 金融 、 娱 乐 媒体 、 政 府 、 医 疗 保健 、 信 息 服务 、 
零售 和 其 他 具有 大 数据 需求 的 行业 ， 但 原 有 存储 基础 设施 的 局 限 性 仍然 存在 。 

Hadoop 正 日 益 成 为 大 规模 、 数 据 密集 型 部 署 的 框架 。Hadoop 用 于 处 理 数据 量 从 太 字 
节 (TB) 到 拍 字 节 (PB) 级 及 以 上 的 大 量 数据 。 因 为 数据 量 庞 大 ， 它 不 太 适 合 于 单个 计算 
机 的 硬盘 驱动 器 和 内 存 。Hadoop 的 优点 在 于 它 通过 将 许多 商用 计算 机 连接 在 一 起 并 行 工作 
来 高 效 地 处 理 大 量 数 据 。 使 用 MapReduce 模型 ，Hadoop 可 以 对 数据 集 进 行 查 询 ， 将 其 划 
分 并 在 多 个 节点 上 并 行 运 行 。 分 布 计算 解决 了 数据 太 大 而 不 能 适应 单个 机 器 的 问题 。 

Hadoop 软件 

Hadoop 软件 堆栈 为 成 比例 的 数据 存储 和 处 理 提 供 了 全 新 的 经 济 性 。 它 允许 企业 在 如 何 
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利用 各 种 数据 方面 具有 无 与 伦比 的 灵活 性 以 发 现 有 关 其 业务 的 见解 .用 户 可 以 在 整个 集群 中 部 
署 完 整 的 硬件 和 软件 堆栈 ， 包 括 OS 和 Hadoop 软件 ， 并 通过 一 个 管理 界面 管理 完整 的 集群 。 

Apache Hadoop 包括 了 分 布 式 文件 系统 (HDFS)， 它 将 输入 的 数据 分 解 并 将 其 存储 在 
不 同 的 计算 节点 上 ， 这 种 处 理 方式 可 以 使 用 集群 中 的 所 有 机 器 并 行 处 理 数据 。Apache 
Hadoop 是 用 Java 编写 的 、 可 以 在 不 同 的 操作 系统 上 运行 的 分 布 式 文件 系统 。 

Hadoop 从 一 开始 就 被 设计 为 可 适应 多 个 文件 系统 ， 并 且 有 一 些 已 经 实现 。HDFS 和 
S3 文件 系统 可 能 是 最 广泛 使 用 的 ， 但 还 有 许多 其 他 可 用 的 文件 系统 如 MapR 文件 系统 。 

Hadoop 与 过 去 的 技术 有 何不 同 ? 

Hadoop 可 以 以 非常 流畅 的 方式 处 理 数据 。Hadoop 不 仅仅 是 一 个 更 快 、 更 便宜 的 数据 
库 和 分 析 工 具 。 与 〈 传 统 ) 数据 库 不 同 ，Hadoop 并 不 非得 构建 数据 结构 。 数 据 可 能 是 非 结 
构 化 的 和 无 模式 的 。 用 户 可 以 将 其 数据 转 储 到 框架 中 而 无 须 重新 格式 化 。 相 比 之 下 ， 关 系 
数据 库 需 要 在 存储 数据 之 前 对 数据 进行 结构 化 和 模式 定义 。 

Hadoop 具有 简化 的 编程 模型 。Hadoop 的 简化 编程 模型 允许 用 户 在 分 布 式 系统 中 快速 
编写 和 测试 软件 。 在 分 布 式 环境 中 执行 大 量 数据 计算 已 经 实现 ， 但 为 分 布 式 系统 编写 软件 
是 非常 困难 的 。 通 过 交换 一 些 编程 灵活 性 ，Hadoop 使 编写 分 布 式 程序 变 得 更 加 容易 。 

由 于 Hadoop 几乎 可 以 接受 任何 类 型 的 数据 ， 它 存储 的 信息 要 比 通常 在 传统 数据 库 中 
整齐 的 行 和 列 中 找到 的 格式 多 得 多 。 例 如 ,包含 JSON、Avro 和 ORC 的 存储 格式 编写 的 机 
器 生成 的 数据 和 日 志 数 据 。 

Hadoop 中 的 大 部 分 数据 准备 工作 是 使 用 脚本 语言 (如 Hive, Pig 或 Python) 编写 代码 。 

Hadoop 易于 管理 。 备 选 的 高 性 能 计算 (HPC ) 系统 允许 程序 在 大 型 计算 机 系列 上 运行 ， 
但 它们 通常 需要 严格 的 程序 配置 , 并 且 通 常 需要 将 数据 存储 在 单独 的 存储 区 域 网 络 (SAN) 
系统 上 。HPC 集群 上 的 调度 程序 需要 仔细 管理 ， 并 且 由 于 程序 执行 对 节点 故障 敏感 ， 因 此 
对 Hadoop 集群 的 管理 要 容易 得 多 。 

Hadoop 无 形 地 处 理 诸如 节点 故障 之 类 的 作业 控制 问题 。 如 果 节 点 出 现 故障 ，Hadoop 
将 确保 在 其 他 节点 上 运行 计算 ， 并 且 从 其 他 节点 恢复 存储 在 该 节点 上 的 数据 。 

Hadoop 是 敏捷 的 。 关 系数 据 库 擅 长 用 预定 义 的 和 严格 的 数据 模型 存储 和 处 理 数据 集 。 
对 于 非 结 构 化 数据 ， 关 系数 据 库 缺 乏 其 所 需 的 敏捷 性 和 可 扩展 性 。Apache Hadoop 通过 将 
大 量 的 结构 化 和 非 结构 化 数据 一 起 处 理 和 分 析 来 降低 成 本 ， 并 且 不 用 提前 定义 结构 进行 处 
理 数据 。 

为 什么 要 使 用 Apache Hadoop? 

成 本 低 。Apache Hadoop 通过 比 其 他 平台 更 经 济 实惠 的 每 太 字 节 (TB ) 存储 数据 来 控 
制 成 本 。Hadoop 的 每 太 字 节 (TB) 只 需 数 百 美元 来 计算 和 存储 并 非 数 千 到 数 万 美元 。 

容错 性 。 容 错 是 使 用 Hadoop 最 重要 的 优点 之 一 。 虽 然 单个 节点 在 大 型 集群 上 运行 作 
业 时 有 很 高 的 故障 率 , 数据 也 可 被 跨 集群 复制 ， 以 便 在 磁盘 、 节 点 或 机 架 故 障 时 轻松 恢复 。 

灵活 性 。 数 据 存 储 在 Apache Hadoop 中 的 灵活 方式 是 其 最 大 的 优势 之 一 ， 使 企业 能 够 
从 先前 被 认为 过 于 昂贵 而 不 能 在 传统 数据 库 中 进行 存储 和 处 理 的 数据 中 生成 价值 。 使 用 
Hadoop 可 以 使 用 所 有 类 型 的 数据 一 一 结构 化 和 非 结构 化 ， 从 中 提取 更 有 意义 的 商业 洞察 力 。 

可 扩展 性 。 Hadoop 是 一 个 高 度 可 扩展 的 存储 平台 , 因为 它 可 以 在 数 以 百 计 的 并 行 运行 
的 廉价 服务 器 的 集群 中 存储 和 分 配 非常 大 的 数据 集 。 传 统 的 关系 数据 库 管 理 系统 (RDBMS ) 
的 问题 是 它们 无 法 扩展 到 处 理 大 量 数据 。 














Chapter 4 


Impacts of Big Data 





Text A 


Big data is both a marketing and a technical term referring to a 
valuable enterprise asset — information. Big data represents a trend 
in technology that is leading the way to a new approach in 
understanding the world and making business decisions. These 
decisions are made based on very large amounts of structured, 
unstructured and complex data (e.g. tweets, videos, commercial 
transactions) which have become difficult to process using basic 
database and warehouse management tools. Managing and 
processing the ever-increasing data set requires running specialized 
software on multiple servers. For some enterprises, big data is 
counted in hundreds of gigabytes: for others, it is in terabytes or 
even petabytes, with a frequent and rapid rate of growth and change 
(in some cases, almost in real time). In essence, big data refers to 
data sets that are too large or too fast-changing to be analyzed using 
traditional relational or multidimensional database techniques or 
commonly used software tools to capture, manage and process the 
data at a reasonable elapsed time. 

Data are collected to be analyzed to find patterns and 
correlations that may not be initially apparent, but may be useful in 
making business decisions. This process is called big data analytics. 
These data are often personal data that are useful from a marketing 


perspective in understanding the likes and dislikes of potential 








New Words and Expressions 


ever-increasing data 
不 断 增长 的 数据 
multidimensional 
/ mal.ti.dar men. fon.ol/ 
多 面 的 ， 多 维 的 
elapse /1'leps/ 
消逝 ; 时间 过 去 
apparent /ə'pær.ənt/ 
显然 的 ; SIN, dew 
profile/ proo.fail/ 
侧面 ; 外 形 ， 轮 廊 ; 人 物 简 介 
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buyers and in analyzing and predicting their buying behavior. | New Words and Expressions 


Personal data can be categorized as: competitive edge 
e Volunteered data — Created and explicitly shared by | % 争 优 势 
individuals (e.g., social network profiles) We eje modeling 


e Observed data — Captured by recording the actions of | aggregation/ zegrr'gerfon/ 
individuals (e.g., location data when using cell phones) 聚集 ; 集成 ; 集结 
* Inferred data — Data about individuals based on analysis of 
volunteered or observed information (e.g., credit scores) 
The primary objective of analyzing big data is to support 
enterprises in making better business decisions. Data scientists and 
other users analyze large amounts of transaction data as well as 
other data sources that may be ignored by traditional business 
intelligence software’, such as web server logs, social media 
activity reports, cell phone records and data obtained via sensors. 
Data analytics can enable a targeted marketing approach that gives 
the enterprise a better understanding of its customers — an 
understanding that will influence internal processes and, ultimately, 
increase profit, which provides the competitive edge most 
enterprises are seeking. 
Impact of Big Data on the Enterprise 

Big data can impact current and future process models in many 
ways. Beyond a business impact, the aggregation of data can affect 
governance and management over planning, utilization, assurance 
and privacy: 

* Governance — What data should be included and how 
should governance of big data be defined and delivered? 

* Planning - Planning involves the process of collecting and 
organizing outcomes to: 

— Justify process adjustments or improvements which until 
recently could be identified using specialized research 
techniques such as predictive modeling". 

— Design a trading program predicated on certain conditions 
that trigger events. 

— Encourage target purchase patterns while a buyer is 
researching products and services. 

— Use location-based information in combination with other 
collected data to guide customer loyalty, route traffic, identify 


new product demands, etc. 
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— Manage just-in-time (JIT) inventory? based on seasonal or 
demand changes. For example, a manufacturing enterprise 
may adjust production levels for a particular item after the 
part number is not ordered for two consecutive days. 

— Manage operations of logistics and transportation firms 
based on real-time performance". 

— Manage unplanned IT infrastructure and policy changes that 
disrupt the direction of IT support. 

e Utilization — Use of big data can vary from one enterprise 
to another depending on the enterprise’s culture and 
maturity. A small enterprise may be slower to adopt big 
data because it may not have the necessary infrastructure to 
support the new processes involved. Companies such as 
IBM&, Hewlett-Packard Company (HP) and 
Amazon.com, on the other hand, have changed direction 
over the last few years from selling products to providing 
services and using information to guide business decisions. 
Companies that have embraced big data have made the 
necessary investments to become information mavens 
capable of identifying new product and service demands 
using data mining - information that they then turn into a 
competitive advantage by being the first to market. 

Infrastructures built to support big data are also cross-marketed 

to support cloud computing services, in a way making customers 
business partners (causing the rise of phrases such as “frenemies” 
and "coopetition"). In other words, big data customers may be 
competitors in one geometric plane and cooperative partners in 
another, as with Netflix using the Amazon.com cloud infrastructure 
to support its media streaming’. 

e Assurance — Experience leads enterprises to develop better 
assurance practices. Once leadership develops a strategy 
that leverages big data, the enterprise can focus on defining 
an assurance framework to control and protect big data. 
The main concern for the assurance organization is data 
quality, addressed by topics such as normalization, 


harmonization and rationalization. 








New Words and Expressions 


just-in-time inventory 
适时 存货 
real-time performance 
实时 性 能 
consecutive/kan'sek.ja.trv/ 
连续 的 ， 连 贯 的 
maturity/mo t[oo.ro.ti/ 
成 熟 ; 完备 ; (票据 等 的 ) 到 期 
maven/ ImeIVaen/ 
< 美 口 > 专家 ， 内 行 
Írenemy/ fren.o.mi/ 
=friendtenemy KiK; 指 伪 装 成 朋 
友 的 敌人 或 者 互相 竞争 的 同伴 ; 用 
来 指 代 个 人 及 群体 组 织 之 间 的 人 
际 关系 、 地 缘 政 治 关系 以 及 商业 关 
系 
coopetition/koo pp.or er.fon/ 
=cooperate+competition 


合作 竞争 
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* Privacy — Privacy protection has always been handled | New Words and Expressions 
differently by geographic regions, governments and | media streaming 
enterprises. Laws protect the privacy of individuals and any 流 媒体 

normalization 


teat ok : i : /'no:.mo.larzerfn/ 
confidential information inappropriately, for example, 正常 化 ， 标准化 


information collected about them, even if people share 


posting nonpublic or private information (e.g., pictures of | harmonization 
/'ha:.mo.nar'ze1fn/ 
和 谐 ， 协 调 ， 相 称 
rationalization 
authenticity of information collected from social media, its | /'reef.on.olr.zefon/ 


credit cards, birthdays, phone numbers, personal 


preferences) in social media outlets. Regardless of the 


collection requires protection from nefarious users as well 合理 化 ， 合 于 经 济 原则 
personal preference 
as over-controlling governments. 个 人 爱好 
outlet/ aot let/ 

出 口 ， 出 路 ; 批发 商店 
nefarious/no feo.ri.os/ 
极 坏 的 ， 恶 毒 的 








Note: 

The text is adapted from the website: 

http://www.isaca.org/Knowledge-Center/Research/ResearchDeliverables/Pages/Big-Data- 
Impacts-and-Benefits.aspx. 


Terms 


1. business intelligence software 

Business intelligence software is a type of application software designed to retrieve, analyze, 
transform and report data for business intelligence. The applications generally read data that 
have been previously stored, often, though not necessarily, in a data warehouse or data mart. 

In the years after 2000, business intelligence software producers became interested in 
producing universally applicable BI systems which don't require expensive installation, and 
could be considered by smaller and midmarket businesses which could not afford on premise 
maintenance. These aspirations emerged in parallel with the cloud hosting trend, which is most 
vendors came to develop independent systems with unrestricted access to information. 

商务 智能 (Business Intelligence, BD. 是 一 种 用 于 检索 、 分 析 、 转 换 和 报告 商业 智能 
数据 的 应 用 软件 。 该 应 用 程序 通常 〈 但 不 一 定 ) 在 数据 仓库 或 数据 中 心中 读 取 预 先 存储 的 

在 2000 年 以 后 的 几 年 里 ,商务 智能 软件 生产 商 开 始 对 生产 普遍 适用 的 BI 系统 感 兴趣 ， 
这 些 BI 系统 不 需要 在 安装 上 花费 太 多 ， 因 此 无 法 负担 内 部 维护 的 中 小 型 企业 可 以 考虑 使 
用 。 这 些 愿 景 与 云 托管 趋势 并 行 出 现 ， 这 将 使 大 多 数 服务 供应 商 开发 一 种 可 以 无 限制 地 访 
问 信息 的 独立 系统 。 

2. Predictive modeling 

Predictive modeling uses statistics to predict outcomes (Figure 4-1). Most often the event 
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one wants to predict is in the future, but predictive modeling can be applied to any type of 
unknown event, regardless of when it occurred. For example, predictive models are often used to 
detect crimes and identify suspects, after the crime has taken place. The applications of 


predictive modeling are shown as follows: 


Predictive Analytics 


Eee 一 


Reporting/ Monitoring Predictive 
= 2E ES 
What happened What is happening What is going to 
Why that t now? Happen in future? 


Figure 4-1 





Archaeology 

Predictive modeling in archaeology gets its foundations from Gordon Willey's mid-fifties 
work in the Virú Valley of Peru. Complete, intensive surveys were performed then co-variability 
between cultural remains and natural features such as slope, and vegetation were determined. 

Customer relationship management 

Predictive modeling is used extensively in analytical customer relationship management 
and data mining to produce customer-level models that describe the likelihood that a customer 
will take a particular action. The actions are usually sales, marketing and customer retention 
related. For example, a large consumer organization such as a mobile telecommunications 
operator will have a set of predictive models for product cross-sell, product deep-sell and churn. 

Health care 

In 2009 Parkland Health & Hospital System began analyzing electronic medical records in 
order to use predictive modeling to help identify patients at high risk of readmission. Initially the 
hospital focused on patients with congestive heart failure, but the program has expanded to 
include patients with diabetes, acute myocardial infarction, and pneumonia. 
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预测 建 模 使 用 统计 来 预测 结果 ， 如 图 4-1 (Figure 4-1) 所 示 。 大 多 数 情况 下 ， 人 们 想 
要 预测 的 事 都 发 生 在 未 来 ， 但 预测 模型 可 以 应 用 于 任何 类 型 的 未 知事 件 ， 无 论 这 些 未 知事 
件 何 时 发 生 。 例 如 ， 犯 罪 发 生 后 ， 预 测 模型 通常 用 于 检测 犯罪 和 识别 嫌疑 犯 。 预 测 模型 的 
应 用 如 图 4-1 (Figure 4-1) 所 示 。 

考古 学 

19 世纪 50 年 代 中 叶 ， 戈 登 。 威 利 (Gordon Willey) 在 秘鲁 维 鲁 山谷 的 工作 为 考古 学 
P 的 预测 建 模 黄 定 了 基础 。 他 进行 了 全 面 深 入 的 调查 ， 确 定 了 文化 遗产 与 斜坡 、 植 被 等 自 

客户 关系 管理 

预测 建 模 被 广泛 用 于 分 析 客 户 关系 管理 和 数据 挖掘 ， 以 生成 描述 客户 可 能 采取 某 种 特 
定 行动 的 客户 级 模型 。 这 些 行 为 通常 与 销售 、 营 销 和 客户 保留 相关 〈Customer Retention, 
企业 为 防止 客户 流失 和 提高 客户 忠诚 度 所 建立 的 一 整套 策略 和 方法 。 保 留 一 个 老 客户 的 成 
本 是 获取 一 个 新 客户 成 本 的 1/5， 几 乎 所 有 的 销售 人 员 都 会 知道 向 一 个 现 有 客户 销售 产品 
要 比 不 断 寻 求 新 客户 容易 得 多 ) 。 例 如 ， 移 动 电信 运营 商 等 大 型 消费 者 群体 将 拥有 一 套 客 
户 关 系 管理 的 整合 产品 ， 包 括 交叉 销售 、 产 品 深度 销售 和 流失 的 预测 模型 。 

保健 

2009 年 ，Parkland Health& Hospital System 开始 分 析 电 子 医 疗 记 录 ， 以 便 使 用 预测 模 
型 来 帮助 识别 那些 再 入 院 风险 高 的 患者 。 最 初 ， 医 院 专 注 于 充血 性 心力 衰竭 患者 ， 但 该 计 
划 已 扩大 到 包括 糖尿 病 、 急 性 心肌 梗死 和 肺炎 患者 。 

3. Just-In-Time (JIT) inventory 

















n 








JIT, or just in time, inventory is an inventory management strategy that is aimed at 
monitoring the inventory process in such a manner as to minimize the costs associated with 
inventory control and maintenance. To a great degree, a just-in-time inventory process relies on 
the efficient monitoring of the usage of materials in the production of goods and ordering 
replacement goods that arrive shortly before they are needed. This simple strategy helps to 
prevent incurring the costs associated with carrying large inventories of raw materials at any 
given point in time. 

Another application of a just in time inventory focuses not on raw materials but on finished 
goods. The idea is to develop a solid understanding of what is needed to produce goods and 
schedule them for shipment to customers within the shortest time frame possible. This dual 
application of a JIT inventory strategy can significantly cut the operational expenses of a 
business in regards to the amount of inventory that must be stored at any one time and the 
amount of taxes that must be paid on larger inventories. 

JIT〈 即 时 库存 ) 是 一 种 库存 管理 策略 ， 指 在 监控 库存 的 过 程 中 ， 以 将 库存 控制 和 维护 
的 相关 成 本 最 小 化 为 目标 的 一 种 方式 。 在 很 大 程度 上 ， 即 时 库存 过 程 依赖 于 对 货物 生产 中 
的 材料 的 使 用 进行 有 效 的 监控 ， 并 且 在 库存 红线 之 前 就 订购 替换 货物 。 这 种 简单 的 策略 有 
助 于 防止 在 任何 给 定时 间 点 存储 大 量 原材料 库存 ， 造 成 相关 的 存储 成 本 损失 。 

即时 库存 的 另 一 个 应 用 不 是 聚焦 于 原材料 ， 而 是 在 成 品 上 。 该 计划 是 对 生产 商品 所 需 
要 的 原材料 有 一 个 深入 的 认识 ， 并 且 可 以 在 最 短 的 时 间 内 将 这 些 原 材料 运送 给 客户 。 无 论 
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何 时 ，JIT 库存 策略 的 双重 应 用 都 可 以 显著 降低 企业 必须 存储 的 库存 量 的 运营 费用 ， 以 及 
在 较 大 库存 中 必须 支付 的 税额 。 

4. Real-time performance 

In computer science, real-time computing (RTC), or reactive computing describes hardware 
and software systems subject to a "real-time constraint", for example from event to system 
response. Real-time programs must guarantee response within specified time constraints, often 
referred to as "deadlines". The correctness of these types of systems depends on their temporal 
aspects as well as their functional aspects. Real-time responses are often understood to be in the 
order of milliseconds, and sometimes microseconds. A system not specified as operating in real 
time cannot usually guarantee a response within any timeframe, although actual or expected 
response times may be given. 

Real-time software may use one or more of the following: synchronous programming 
languages, real-time operating systems, and real-time networks, each of which provide essential 
frameworks on which to build a real-time software application. Systems used for many mission 
critical applications must be real-time, such as for control of fly-by-wire aircraft, or anti-lock 
brakes on a vehicle, which must produce maximum deceleration but intermittently stop braking 
to prevent skidding. Real-time processing fails if not completed within a specified deadline 
relative to an event; deadlines must always be met, regardless of system load. 

在 计算 机 科学 中 ， 实 时 计算 CRTC) 或 反应 计算 描述 了 受到 “实时 约束 ”的 硬件 和 软 
件 系 统 ， 例 如 从 事件 到 系统 响应 的 过 程 。 实 时 程序 必须 保证 在 规定 时 间 内 的 响应 ， 这 通常 
被 称 为 “最 后 期 限 ”。 这 类 系统 的 正确 性 取决 于 它们 的 时 间 是 否 实时 以 及 它们 的 功能 。 实时 
响应 通常 被 理解 为 毫秒 级 ， 有 时 是 微 秒 级 。 虽 然 可 以 给 出 实际 或 预期 的 响应 时 间 ， 但 未 被 
确定 为 实时 操作 的 系统 通常 不 能 保证 在 任何 时 间 范 围 内 的 响应 。 

实时 软件 可 以 使 用 以 下 的 一 个 或 多 个 功能 : 同步 编程 语言 、 实 时 操作 系统 和 实时 网 络 ， 
每 个 网 络 都 提供 构建 实时 软件 应 用 程序 的 基本 框架 。 用 于 多 任务 关键 应 用 的 系统 必须 是 实 
时 的 ， 例 如 用 于 控制 飞行 中 的 飞机 或 车 辆 上 的 必须 产生 最 大 减速 但 间 和 区 地 停止 制 动 以 防止 
打滑 的 防 抱 死 制动器 。 如 果 在 相对 于 事件 的 规定 期 限 内 未 完成 ， 则 实时 处 理 失 败 ， 无 论 系 
统 负载 如 何 ， 都 必须 始终 满足 最 后 期 限 。 

5. Media streaming 

Streaming media is multimedia that is constantly received by and presented to an end-user 
while being delivered by a provider. The verb “to stream" refers to the process of delivering or 
obtaining media in this manner; the term refers to the delivery method of the medium, rather 
than the medium itself, and is an alternative to file downloading, a process that the end-user 
obtains the entire file for the content before watching or listening to it. 

A client end-user can use their media player to begin to play the data file (such as a digital 
file of a movie or song) before the entire file has been transmitted. Distinguishing delivery 
method from the media distributed applies specifically to telecommunications networks, as most 
of the delivery systems are either inherently streaming (e.g. radio, television) or inherently 


non-streaming (e.g. books, video cassettes, audio CDs). For example, in the 1930s, elevator 
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music was among the earliest popularly available streaming media; nowadays Internet television 


is a common form of streamed media. The term “streaming media" can apply to media other than 


video and audio such as live closed captioning, ticker tape, and real-time text, which are all 


considered "streaming text". 








流 媒 体 是 由 供应 商 交 付 、 不 断 接 收 内 容 并 呈现 给 最 终 用 户 的 多 媒体 。 动 词 “ 流 ”是 指 











以 这 种 方式 传递 或 获取 媒体 的 过 程 ， 该 术语 是 指 介质 的 传递 方法 ， 而 不 是 介质 本 身 ， 是 文 
件 下 载 的 奉 代 方案 ， 是 终端 用 户 在 观看 或 收听 内 容 之 前 获取 文件 内 容 的 过 程 。 


H 























在 整个 文件 传输 完毕 之 前 ， 客 户 终端 用 户 就 可 以 使 用 其 媒体 播放 器 播放 数据 文件 〈 如 














电影 或 歌曲 的 数字 文件 )。 该 分 发 方法 特别 适用 于 电信 网 络 , 因为 大 多 数 传送 系统 是 固有 的 














流 式 传输 〈 例 如 无 线 电 、 电 视 ) 或 固有 的 非 流 传输 (例如 书籍 、 录 像 带 、 音 频 CD)。 例 如 ， 
在 20 世纪 30 年代， 电梯 音乐 是 最 早 流行 的 流 媒体 之 一 ; 现在 互联 网 电视 是 流 媒 体 的 常见 
形式 。 术 语 “ 流 媒体 ”也 可 以 应 用 于 视频 和 音频 以 外 的 媒体 ， 例 如 现场 隐藏 式 字幕 、 自 动 
代码 磁带 和 实时 文本 ， 这 些 都 被 视 为 “ 流 文本 ”。 





























Comprehension 

Blank filling 

1. Big data is both a and a term referring to a valuable enterprise 
asset - information. Big data represents a trend in technology that is leading the way to a 
new approach in and 

2. Managing and processing the ever-increasing data set requires running specialized 

on multiple 

3. In essence, big data refers to data sets that are too or too to be 
analyzed using traditional relational or multidimensional database techniques or 
commonly used software tools to : and the data at a 
reasonable elapsed time. 

4. Data are collected to be analyzed to find and that may not be 
initially apparent, but may be useful in making business decisions. 

5. Big data can impact current and future process models in many ways. Beyond a business 
impact, the aggregation of data can affect and over planning, 

and 





Content Questions 


1. On what are business decisions made? 


2. From a marketing perspective, what are data used for? 


3. What is volunteered data? 


4. What is observed data? 


5. What is inferred data? 
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Answers 


Blank filling 

1. marketing; technical; understanding the world; making business decisions 

2. software; servers 

3. large; fast-changing: capture; manage; process 

4. patterns; correlations 

5. governance; management; utilization; assurance; privacy 

Content Questions 

1. Business decisions are made based on very large amounts of structured, unstructured and 
complex data (e.g., tweets, videos, commercial transactions) which have become 
difficult to process using basic database and warehouse management tools. The 
analytical findings can lead to more effective marketing, new revenue opportunities, 
better customer service, improved operational efficiency, competitive advantages over 
rival organizations and other business benefits. 

. Data are collected to be analyzed to find patterns and correlations that may not be 

initially apparent, but may be useful in making business decisions. This process is called 

big data analytics. These data are often personal data that are useful from a marketing 

perspective in understanding the likes and dislikes of potential buyers and in analyzing 

and predicting their buying behavior. 

Volunteered data is the data created and explicitly shared by individuals (e.g., social 

network profiles). 

4. Volunteered data is the data captured by recording the actions of individuals (e.g., 
location data when using cell phones). 

. Inferred data is the data about individuals based on analysis of volunteered or observed 


N 


y 


n 


information (e.g., credit scores). 
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大 数据 既是 营销 术语 又 是 技术 术语 ， 指 的 是 有 价值 的 企业 资产 一 一 信息 。 大 数据 代表 
了 技术 趋势 ， 正 在 引领 使 用 新 方法 来 了 解 世界 并 做 出 业务 决策 。 这 些 决 策 制定 是 基于 使 用 
非常 大 量 的 结构 化 、 非 结构 化 的 复杂 数据 (例如 推 文 、 视 频 、 商 业 交易 )， 这 些 复杂 的 数据 
是 传统 数据 库 和 数据 仓库 管理 工具 都 难以 应 付 的 。 管 理 和 处 理 不 断 增 长 的 数据 集 需 要 在 多 
台 服 务 器 上 运行 专门 的 软件 。 对 于 一 些 企业 来 说 ， 大 数据 计算 量 为 GB 级 ， 对 于 其 他 人 来 
说 , 它 可 以 是 以 TB 甚至 PB 为 单位 ， 且 频繁 和 快速 地 增长 和 变化 〈 在 某 些 情况 下 ， 几 乎 是 
实时 的 )。 实 质 上 , 大 数据 是 指 在 一 个 合理 的 时 间 内 使 用 传统 的 关系 或 多 维 数据 库 技术 或 常 
用 的 软件 工具 来 捕获 、 管 理 和 处 理 数据 量 过 大 或 变化 过 快 的 数据 集 ， 从 而 进行 分 析 。 

收集 数据 进行 分 析 以 找 出 最 初 可 能 不 是 显而易见 的 模式 和 相关 性 ， 这 有 助 于 实体 做 出 
业务 决策 。 这 个 过 程 称 为 大 数据 分 析 。 这 些 数据 通常 是 从 营销 角度 来 理解 潜在 买 家 的 喜好 
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和 非 喜好 以 及 分 析 和 预测 其 购买 行为 的 个 人 数据 。 个 人 数据 可 分 为 : 

自愿 提供 的 数据 一 一 由 个 人 创建 和 明确 共享 例如， 社交 网 络 配置 文件 ); 

观察 数据 一 一 通过 记录 个 人 的 行为 获得 〈 例 如 ， 使 用 手机 时 的 位 置 数据 ); 

推测 数据 一 一 关于 个 人 的 数据 基于 对 自愿 或 观察 信息 《例如 信用 评分 ) 的 分 析 。 

大 数据 分 析 的 主要 目标 是 支持 企业 做 出 更 好 的 业务 决策 。 数 据 科学 家 和 其 他 用 户 分 析 
大 量 交易 数据 以 及 传统 商业 智能 软件 可 能 忽略 的 其 他 数据 源 ， 如 Web 服务 器 日 志 、 社 交 媒 
体 活动 报告 、 手 机 记录 和 通过 传感器 获得 的 数据 。 数据 分 析 可 以 实现 有 针对 性 的 营销 手段 ， 
使 企业 更 好 地 了 解 其 客户 ， 这 一 理解 将 影响 内 部 流程 ， 并 最 终 增加 利润 ， 从 而 提供 大 多 数 
企业 正在 寻求 的 竞争 优势 。 

大 数据 对 企业 的 影响 

大 数据 可 以 在 许多 方面 影响 当前 和 未 来 的 流程 模型 。 除 了 业务 影响 之 外 ， 数 据 汇 总 可 
能 会 影响 到 规划 、 利 用 、 担 保 和 隐私 。 

治理 : 应 包括 哪些 数据 ， 以 及 如 何 定义 和 交付 大 数据 的 治理 ? 

规划 : 规划 涉及 收集 和 组 织 成 果 的 过 程 。 

。 过 程 调整 或 改进 的 证 明 , 直到 最 近 才 能 使 用 专门 的 研究 技术 (如 预测 建 模 ) 来 确定 。 

。 根据 触发 事件 的 某 些 条 件 设计 交易 程序 。 

。 在 买 家 正在 研究 产品 和 服务 时 ， 鼓 励 目标 购买 的 模式 。 

。 使 用 基于 位 置 的 信息 与 其 他 收集 的 数据 相 结 合 ， 指 导 客户 忠诚 度 、 路 线 流量 、 新 产 

品 需 求 等 。 
。 根据 季节 或 需求 变化 管理 即时 (JIT) 库存 。 例 如 ， 人 制造 企业 可 以 在 零件 型 号 不 是 
在 连续 订购 的 情况 下 调整 特定 物品 的 产品 水 平 。 

。 根据 实时 业绩 管理 物流 运输 公司 的 运营 。 

。 管理 那些 意外 出 现 的 破坏 IT 发 展 方向 的 IT 基础 设施 和 政策 变化 。 

利用 : 根据 企业 的 文化 和 成 熟 度 ， 大 型 数据 的 使 用 可 能 因 企业 而 异 。 一 个 小 型 企业 可 
能 对 于 采用 大 数据 行动 比较 迟缓 ,因为 它 可 能 没有 必要 的 基础 设施 来 支持 所 涉及 的 新 流程 。 
另 一 方面 ， 诸 如 IBM®, Hewlett-Packard Company (HP) 和 Amazon.comse 等 公司 已 经 在 过 
去 几 年 把 方向 从 销售 产品 转变 为 提供 服务 和 使 用 信息 来 指导 业务 决策 方面 。 拥 有 大 量 数据 
的 公司 已 经 进行 了 必要 的 投资 ， 成 为 能 够 使 用 数据 挖掘 信息 识别 新 产品 和 服务 需求 的 信息 
空间 ， 然 后 通过 首次 推 向 市 场 将 其 变 成 竞争 优势 。 

用 于 支持 大 数据 的 基础 设施 也 是 交叉 销售 的 ， 以 支持 云 计算 服务 ， 从 而 使 客户 成 为 业 
务 伙伴 (导致 诸如 “ 亦 敌 亦 友 ”和 “合作 竞争 ”等 词语 的 兴起 )。 换 句 话 说 ， 大 数据 客户 可 
能 在 一 个 欧 氏 几何 平面 中 , 一面 是 竞争 对 手 , 另 一 面 是 合作 伙伴 ,Netflix 则 使 用 Amazon.com 
云 基础 设施 来 支持 其 媒体 流 。 

担保 : 经 验 引 导 企 业 制定 更 好 的 担保 措施 。 一 旦 领导 层 制订 了 利用 大 数据 的 战略 ， 企 
业 就 可 以 专注 于 定义 一 个 保护 框架 来 控制 和 保护 大 数据 。 担 保 组织 的 主要 关注 点 是 数据 质 
量 ， 如 归 一 化 、 统 一 化 和 合理 化 等 问题 。 

隐私 对 于 不 同 的 地 域 、 政 府 和 企业 ， 他 们 对 待 隐 私 保护 的 处 理 方式 一 直 不 同 。 法 律 
保护 个 人 的 隐私 以 及 从 个 人 收集 的 任何 信息 , 包括 人 们 无 意识 地 分 享 出 的 机 密 信 息 , 例如 ， 
在 社交 媒体 上 发 布 非 公 开 或 私人 信息 〈 信 用 卡 、 生 日 、 电 话 号 码 、 个 人 喜好 的 图 片 等 )。 无 
论 从 社交 媒体 收集 到 的 信息 是 否 真 实 , 这 些 收集 的 信息 都 需要 保护 其 不 受 恶意 用 户 的 影响 。 
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Text A 


Businesses are using the power of insights provided by big data to 
instantaneously establish who did what, when and where. The 
biggest value created by these timely, meaningful insights from 
large data sets is often the effective enterprise decision-making that 
the insights enable. 

Big data opportunities are significant, as are the challenges. 
Enterprises that master the emerging discipline of big data 
management can reap significant rewards and differentiate 
themselves from their competitors. Indeed, research conducted by 
Erik Brynjolfsson, Sloan School of 


Management at the Massachusetts Institute of Technology (USA), 
ls 


an economist at the 


shows that companies that use “data-directed decision making 
enjoy a five to six percent boost in productivity. Proper use of big 
data goes beyond collecting and analyzing large quantities of data: 
it also requires understanding how and when to use the data in 
making crucial decisions. 

Competitive advantage can be greatly improved by leveraging 
the right data. According a research report by McKinsey, the 
potential value from data in the US health care sector could be more 
than US $300 billion in value every year, two-thirds of which 
would be in the form of reducing national health care expenditures 
by approximately eight percent. 


Financial benefits can be realized when data management 








New Words and Expressions 


instantaneous/ m.ston ter.ni.os/ 

瞬间 的 ; 即刻 的 ; 狸 发 的 
boost/bu:st/ 

促进 ， 提 高 ; 增加 ; 吹捧 
crucial/'kru:.fol/ 

关键 性 的 ， 极 重要 的 ; 决定 性 的 
align/o'lam/ 

使 成 一 线 ， 使 结盟 ; 排列 
~with 对 齐 





se 
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processes are aligned with the enterprise's strategy, which may 
require top management involvement to set direction and oversee 
major decisions. 

Big data analytics can positively impact: 

e Product development 

e Market development 

* Operational efficiency 

e Customer experience and loyalty 

* Market demand predictions 

Big Data is a buzzword amongst businessmen nowadays. 
Regardless of industry or company size, it manages to squeeze into 
every nook and cranny. There are at least three ways that Big Data 
has been impacting companies that everyone should understand 
moving forward. 

1. It has revolutionized old-school industries. 

“Big Data has had a tremendous impact on businesses from 
customer relations to supply chain operations and will continue to 
do so" says Edwin Miller, CEO of 9Lenses. While many may not 
be aware of it, Big Data has indeed made a significant impact on 
many traditional businesses. 

Capital One is a perfect example. In the 19905, the credit card 
industry utilized a uniform-pricing model charging every customer 
the same price, with the exception of Capital One. The company 
used a statistical model? based on public credit and demographic 
data to provide customers with “custom-tailored” products. The 
innovation was one of their cornerstone developments in earning 
32% CAGR in net revenue (after provisions) from 1994 to 2003. 
Consequently, many banks have shifted focus towards Big Data 
analytics, but the pioneers seem to have maintained their edge. 
Their annual net revenue has increased by 17% compared with top 
banks in the US such as Citigroup at 11%, Bank of America at 11% 
and JP Morgan at 6% from 2009 to 2014. 

Rolls Royce's success in applying Big Data analytics has 
influenced the aircraft engine-manufacturing sector. The company 
consistently monitors approximately 3,700 engines, each of which 
has hundreds of censors installed, to predict when and where 
breakdowns may occur. Roll-Royce has transformed from selling 


only engines to selling packages of both engines and monitoring 











New Words and Expressions 


nook/nok/ 
角落 ; 隐蔽 处 ; 每 个 角落 ; 到 处 
cranny/'kren.i/ 
revolutionize/ rev.3'lu:.fan.arz/ 
Aux: 彻底 改革 ; 使 革命 化 
tremendous /trrmen.das/ 
极 大 的 ， 巨 大 的 ; 可 怕 的 ; 极 好 
的 
demographic/ dem.o'gref.1k/ 
人 口 统计 学 的 ; 人 口 统计 的 
cornerstone/'ko:.no.staun/ 


BRA; 基石 ; 最 重要 的 部 分 
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services and then charging customers based on usage, repairs and | New Words and Expressions 


replacements. The service currently accounts for more than 70% of | gross margin 

总 利润 ，( 销 货 ) 毛利 
. g merchandise/'ms:.tfən.da1z/ 
Another perfect example is the world's largest retailer, 商品 ; 货物 ; xi: 销售 ; 经商 


Walmart(Figure 5-1). Walmart is a well-known user of Big Data ancillary/zn'sil.or.i/ 
有, - 2 i 辅助 的 ; 补充 的 ; 附加 的 ; 助手 ， 
analytics today, but in the 1990s, it reformed the retail industry by 随从 


their annual revenue in their aircraft engine division. 


recording every product as data through a system called Retail 
Link. The system provided a way for suppliers to manage their own 
products by allowing them to monitor their data, including sales and 
inventory volume, in-stock percentage, gross margin and inventory 
turnover. As a result, they could achieve low levels of inventory 
risk and associated costs. Walmart's significantly low costs and 
high levels of efficiency were major factors that drove productivity 
of the merchandise retail sector over the period of 1995 — 2000 
according to a 2001 McKinsey Global Productivity Report. 





Figure 5-1 


Walmart is but one example of a company leveraging Big Data 
io create a competitive advantage’. (Photographer: Joe 
Raedle/Getty Images) 

2. It has given birth to a new industry. 

Historically, data was used as an ancillary to core business and 
was gathered for specific purposes. Retailers recorded sales for 
accounting. Manufacturers recorded raw materials for quality 
management. The number of mouse clicks on advertising banners 
was collected for calculating advertisement revenue. But as the 


demand for Big Data analytics emerged, data no longer serves only 





its initial purpose. Companies able to access huge amounts of data 
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possess a valuable asset that when combined with the ability to 
analyze it, has created a whole new industry. 

ITA Software! is a private company that gathers flight price 
data from almost all major carriers with the exception of Jet Blue 
and Southwest that sells that information to travel agents and 
websites.Google acquired ITA in 2011 for $700 million. With 
Google's expert analytics and more extensive data for processing, 
ITA today can provide predictions for prices for flights, hotels, 
shopping and more. 

The success of companies like ITA has helped accelerate the 
boom of Big Data startups. According to the website angel.com, 
there have been 2,924 Big Data startups from November 2010 to 
the present. These companies often operate as data analytics 
companies, data providers or traders, are attracting a lot of attention 
from investors. In the second quarter of 2015, U.S. venture capital 
funding of Big Data startups reached $19.19 billion. 

Another remarkable case in this emerging industry is last 
year's strategic partnership between IBM and Twitter (Figure 
5-2). IBM and Twitter have partnered up for the purpose of selling 
analytical information to corporate clients. IBM analyzes Twitter 
data combined with other public and business sources, "helping 
businesses tap into billions of real-time conversations to make 
smarter decisions" according to Glenn Finch, Global Leader Data & 
Analytics, GBS, The partnership has helped the two companies 
leverage their respective areas of expertise; IBM with their 
analytical skills and Twitter for their data. 











New Words and Expressions 


emerging industry 
新 兴 产 业 
venture capital 
< 美 > 风 险 资本 
strategic partnership 
战略 伙伴 关系 
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Twitter's massive data stockpile coupled with IBM's analytic 
prowess 
(Photographer: David Paul Morris/Bloomberg) 


3. It improves business regardless of company size. 


makes for an interesting strategic partnership. 


It is obvious that big companies have advantages over smaller 
ones. By the word “big”, I mean companies that generate an 
enormous amount of data. Tech giants like Amazon and Google 
will continue to benefit from the sheer volume of data they 
generate. Amazon currently has approximately 270 million active 
users in 185 countries and 16 million listing units. Google has 
approximately 12 trillion monthly searches, which dominates the 
internet search engine market to the tune of approximately a 90% 
market share, including over one billion YouTube users and 500 
million Google Plus users. 

But that is not the end of the story; Big Data actually helps 
level the playing field. The breakneck-paced development of 
technology such as processing chips and data storage have reached 
a point in which companies can retain and utilize information at 
very low costs. Even with a limited IT budget, companies can still 
effectively store data. If there is not enough data available in-house, 
they can cheaply lease data from “data intermediaries”. Companies 
can also hire outside data analytics firms at affordable rates. 

An example of successful application is recruitment company 
Riviera Partners’ process in selecting candidates. They cross 
reference candidates’ profiles in their database with public sources 
to cherry-pick the most appropriate skills and match them to each 
position. Another example is a restaurant chain that “was able to 
eliminate the need to live answer handle 60,000 phone calls to their 
restaurants, allowing employees to focus on in store customers” 
according to Michael Bremmer, CEO of Telecomquotes.com. 

New projects also benefit from Big Data innovation, as 
described by Kristina Roth, CEO & Founder of Matisia 
Consultants, “with big data, businesses can learn to improve faster, 
better, and at lower costs by learning lessons from each 
improvement project and incorporating them into the next project.” 

In fact, Big Data applications are bound only by the human 
imagination. Businesses such as car manufacturers can improve 


operational efficiency, hospitals can improve patient services and 
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New Words and Expressions 


stockpile/'stok.pail/ 
(原料 , 食品 等 的 ) 储备 ， 储 存 ; 

大 量 储备 
tech giant 

科技 巨头 
dominate/‘dpm.1.nert/ 

支配 ， 影 响 ; 占有 优势 
data intermediary 

数据 中 介 
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fast food companies can better manage food deliveries. The list | New Words and Expressions 
goes on and on. Any business that can successfully apply Big Data | recruitment/rr kru:t.mont/ 


creates a competitive advantage. 征 募 新 兵 ; 补充 ; 募集 
Notably, successful players in Big Data are recognized well by "e k 优先 


the market. Companies that utilize Big Data are highly valued by intangible/m tzn.d3.bol/ 


investors. Companies engaged in Big Data business have relatively | 触 不 到 的 ; 难以 理解 的 ; 无 法 确 
定 的 ; < 商 >( 指 企业 资产 ) 无 形 的 


high multiples. Investors may not only value their growth but also intangible asset 


their intangible assets", such as data volume and analytical skills. 无 形 资产 
Big Data is making a huge impact and will continue to do so as 





a key driving factor in business performance in years to come. 





Terms 


1. Data-directed decision making 

Decision-making can be regarded as a problem-solving activity terminated by a solution 
deemed to be satisfactory. It is therefore a process which can be more or less rational or 
irrational and can be based on explicit or tacit knowledge. 

Human performance with regard to decisions has been the subject of active research from 
several perspectives: 

* Psychological: examining individual decisions in the context of a set of needs, 

preferences and values the individual has or seeks. 

* Cognitive: the decision-making process regarded as a continuous process integrated in 

the interaction with the environment. 

e Normative: the analysis of individual decisions concerned with the logic of 

decision-making, or communicative rationality, and the invariant choice it leads to. 

A major part of decision-making involves the analysis of a finite set of alternatives 
described in terms of evaluative criteria. Then the task might be to rank these alternatives in 
terms of how attractive they are to the decision-maker(s) when all the criteria are considered 
simultaneously. This area of decision-making, although very old, has attracted the interest of 
many researchers and practitioners and is still highly debated as there are many MCDA methods 
which may yield very different results when they are applied on exactly the same data. This 
leads to the formulation of a decision-making paradox. 

数据 导向 决策 

决策 可 以 被 看 作 是 解决 问题 的 一 种 行动 过 程 ， 反 复 尝试 该 过 程 直到 得 到 令 人 满意 的 策 
略 终止 。 因 此 ， 这 是 一 个 多 多 少 少 挨 杂 理性 或 非 理 性 的 过 程 ， 可 以 基于 显 性 或 隐 性 知识 。 

对 于 人 类 决策 的 表现 ， 主 要 从 以 下 几 个 主题 进行 研究 : 

心理 学 : 在 个 人 拥有 或 寻求 的 一 系列 需求 、 偏 好 和 价值 观 的 背景 下 审视 个 人 决策 。 

认 知 : 决策 过 程 被 认为 是 与 环境 相互 作用 并 结合 的 连续 过 程 。 

规范 性 : 与 决策 逻辑 或 交际 理性 相关 的 个 别 决 策 的 分 析 以 及 导致 的 不 变 的 选择 。 
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决策 的 主要 部 分 涉及 根据 评估 标准 描述 的 一 组 有 限 选 择 的 分 析 。 那 么 决策 的 任务 可 能 
就 是 在 同时 考虑 所 有 标准 的 情况 下 ， 考 量 他 们 对 决策 者 的 吸引 力 是 怎样 的 。 这 个 决策 领域 
虽然 很 老 ， 但 已 经 吸引 了 许多 研究 人 员 和 从 业者 的 兴趣 ， 并 且 仍 然 受到 高 度 争议 ， 因 为 有 
许多 多 准则 决策 分 析 (Multi Criteria Decision Analysis，MCDA) 方 法 在 应 用 完全 相同 的 数据 
时 可 能 产生 非常 不 同 的 结果 ， 这 就 可 能 导致 制定 一 个 决策 的 时 候 会 出 现 悖 论 。 

2. Statistical model 


A statistical model is a class of mathematical model, which embodies a set of assumptions 








concerning the generation of some sample data, and similar data from a larger population. A 
statistical model represents, often in considerably idealized form, the data-generating process. 

The assumptions embodied by a statistical model describe a set of probability distributions, 
some of which are assumed to adequately approximate the distribution from which a particular 
data set is sampled. The probability distributions inherent in statistical models are what 
distinguish statistical models from other, non-statistical, mathematical models. 

A statistical model is a special class of mathematical model. What distinguishes a statistical 
model from other mathematical models is that a statistical model is non-deterministic. Thus, in a 
statistical model specified via mathematical equations, some of the variables do not have specific 
values, but instead have probability distributions; i.e. some of the variables are stochastic. 

There are three purposes for a statistical model, according to Konishi & Kitagawa. 

* Predictions 

* Extraction of information 

* Description of stochastic structures 

统计 模型 

统计 模型 是 一 类 数学 模型 ， 它 体现 了 一 组 关于 生成 样本 数据 (以 及 来 自 较 大 群体 的 类 
似 数据 ) 的 假设 。 统 计 模 型 通常 以 相当 理想 化 的 形式 表示 数据 的 生成 过 程 。 

由 统计 模型 体现 的 假设 描述 了 一 组 概率 分 布 ， 其 中 一 些 被 假定 为 是 从 充分 近似 特定 数 
据 集中 提取 的 抽样 分 布 。 统 计 模 型 固有 的 概率 分 布 将 统计 模型 与 其 他 非 统计 学 数学 模型 区 
分 开 来 。 

统计 模型 是 一 类 特殊 的 数学 模型 。 统 计 模型 与 其 他 数学 模型 的 区 别 在 于 统计 模型 是 非 
确定 性 的 。 因 此 ， 在 通过 数学 方程 式 指定 的 统计 模型 中 ， 一 些 变 量 没有 特定 值 ， 而 是 具有 
概率 分 布 ， 即 一 些 变量 是 随机 的 。 

根据 Konishi& Kitagawa 的 理论 ， 统 计 模 型 有 三 个 目的 : 

。 预测 ; 

。 提取 信息 ; 

。 随机 结构 描述 。 


3. Competitive advantage 








When a firm sustains profits that exceed the average for its industry, the firm is said to 
possess a competitive advantage over its rivals. The goal of much of business strategy is to 
achieve a sustainable competitive advantage. 


Michael Porter identified two basic types of competitive advantage(Figure 5-3): 
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Cost Advantage 
or 


Differentiation Advantage 





Figure 5-3 


e cost advantage 

* differentiation advantage 

A competitive advantage exists when the firm is able to deliver the same benefits as 
competitors but at a lower cost (cost advantage), or deliver benefits that exceed those of 
competing products (differentiation advantage). Thus, a competitive advantage enables the firm 
to create superior value for its customers and superior profits for itself. 

Competitive advantage is a business concept that describes the attribute of allowing an 
organization to outperform its competitors. These attributes may include access to natural 
resources, such as high-grade ores or a low-cost power source, highly skilled labor, geographic 
location, high entry barriers, etc. Access to new technology can also be considered as an attribute 
of competitive advantage. 

竞争 优势 

当 公司 维持 超过 其 行业 平均 水 平 的 利润 时 ， 该 公司 就 会 被 认为 比 竞争 对 手 具 有 竞争 优 
势 。 大 多 数 业务 战略 的 目标 是 实现 可 持续 的 竞争 优势 。 

迈克 尔 ，。 波 特 确 定 了 两 种 基本 类 型 的 竞争 优势 (如 图 5-3 所 示 ) : 成 本 优势 和 差异 化 
优势 。 

当 企 业 能 够 以 较 低 的 成 本 成 本 优势 ) 就 能 获得 与 竞争 对 手相 同 的 利润 ， 或 者 提供 超 
过 对 手 竞争 产品 〈 差 异化 优势 ) 的 品质 时 ， 就 存在 竞争 优势 。 因 此 ， 竞 争 优势 使 企业 能 够 
为 客户 创造 优越 的 价值 ， 为 自身 创造 优势 。 

竞争 优势 是 描述 允许 组 织 优 于 其 竞争 对 手 的 属性 的 业务 概念 。 这 些 属 性 可 能 包括 获取 
自然 资源 ， 例 如 高 档 矿石 或 低 成 本 电源 、 高 技能 劳动 力 、 地 理 位 置 、 高 进入 门槛 等 。 获 得 
新 技术 也 可 以 被 视 为 竞争 优势 的 属性 。 

4. ITA Software 

ITA Software is a travel industry software division of Google, formerly an independent 








company, in Cambridge, Massachusetts. The company was founded by Jeremy Wertheimer, a 
computer scientist from the MIT Artificial Intelligence Laboratory and Cooper Union, with his 
partner Richard Aiken in 1996. On July 1, 2010 ITA agreed to be acquired by Google. On April 8, 
2011, the US Department of Justice approved the buyout. As part of the agreement, Google must 
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license ITA software to other websites for five years. 

ITA is known for using programming puzzles to attract and evaluate potential employees 
since 2001. Some of these puzzles have appeared in ads on Boston's MBTA subway system. 
ITA is also one of the highest-profile companies to base their software on Common Lisp. 

In January 2006, ITA received $100 million in venture capital money from a syndicate of 
five investment firms led by Battery Ventures, marking the largest investment in a software firm 
in New England in five years. In September 2006, ITA announced a several million dollar deal 
with Air Canada to develop a new computer reservations system to power its reservations, 
inventory control, seat availability, check-in, and airport operations. In August 2009, Air Canada 
announced that the project had been suspended. On March 1, 2012, Google and Cape Air 
announced that Cape Air had migrated to ITA Software's passenger reservations system. 

ITA Software 是 Google 的 旅游 行业 软件 部 门 , 原来 是 位 于 马萨诸塞 州 剑 桥 的 独立 公司 。 
该 公司 由 麻 省 理工 学 院 人 工 智 能 实验 室 和 库 珀 联盟 的 计算 机 科学 家 杰 里 米 。 韦 特 海 默 
(Jeremy Wertheimer) 和 他 的 合伙 人 理 查 德 。 艾 肯 (Richard Aiken) 于 1996 年 创立 。2010 
年 7 月 1 日 ITA 同意 被 Google 收购 。 2011 年 4 月 8 日， 美国 司法 部 批准 收购 。 作 为 协 
议 的 一 部 分 ，Google 必须 在 此 后 的 5 年 中 向 其 他 网 站 许可 使 用 ITA 软件 。 

2001 年 来 ，ITA 以 使 用 编程 谜 题 吸 引 和 评估 潜在 员工 而 闻名 。 其 中 一 些 难 题 出 现在 波 

Lii MBTA 地 铁 系统 的 广告 中 。 ITA 也 是 基于 Common Lisp 的 最 高 级 别 公司 之 一 。 

2006 年 1 H, ITA 从 Battery Ventures 领导 的 五 家 投资 公司 组 成 的 财团 获得 了 1 亿美 元 
的 风险 投资 资金 ， 这 标志 着 近 五 年 在 新 英格兰 一 家 软件 公司 的 最 大 投资 。 2006 年 9 月 ， 
ITA 宣布 与 加 拿 大 航空 公司 签署 数 百 万 美元 的 协议 ， 开 发 新 的 计算 机 预订 系统 ， 以 提供 预 
订 、 库 存 控 制 、 座 位 可 用 性 、 登 记 和 机 场 运营 等 功能 。2009 年 8 月 ， 加 拿 大 航空 宣布 该 项 
HF. 2012 年 3 月 1 日 ，Google fil Cape Air 宣布 ， Cape Air 已 经 迁移 到 ITA Software 的 
乘客 预订 系统 。 

5. Intangible asset 

An intangible asset is an asset that lacks physical substance and usually is very hard to 








evaluate. It includes patents, copyrights, franchises, goodwill, trademarks, trade names, the 
general interpretation also includes software and other intangible computer based assets. 
Contrary to other assets, they generally - though not necessarily - suffer from typical market 
failures of non-rivalry and non-excludability. 

Intangible assets have been argued to be one possible contributor to the disparity between 
company value as per their accounting records, and company value as per their market 
capitalization. A number of attempts have been made to define intangible assets: 

* Prior to 2005 the Australian Accounting Standards Board issued the Statement of 
Accounting Concepts number 4 (SAC 4). This statement did not provide a formal 
definition of an intangible asset but did provide that tangibility was not an essential 
characteristic of asset. 

* International Accounting Standards Board standard 38 (IAS 38) defines an intangible 
asset as: “an identifiable non-monetary asset without physical substance." 

The Financial Accounting Standards Board Accounting Standard Codification 350 (ASC 
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350) defines an intangible asset as an asset, other than a financial asset, that lacks physical 
substance. 

无 形 资产 

无 形 资产 是 一 种 没有 物质 形态 的 资产 ， 通 常 难以 评估 。 它 包括 专利 、 版 权 、 特 许 经 营 、 
商 誉 、 商 标 、 商 品名 称 ， 通 常 也 包括 软件 和 其 他 无 形 资产 。 与 其 他 资产 相反 ， 他 们 通常 不 
会 遭受 非 竞 争 和 非 排他 性 的 典型 市 场 失灵 。 

考虑 到 无 形 资产 在 公司 价值 与 会 计 记 录 价 值 之 间 存 在 差距 导致 公司 价值 与 市 场 资本 
化 之 间 存 在 差距 ， 人 们 尝试 给 出 对 无 形 资产 的 定义 。 

2005 年 之 前 ， 澳 大 利 亚 会 计 准则 委员 会 发 布 了 第 4 号 会 计 概 念 表 (SAC 4)。 该 声明 没 
有 提供 无 形 资产 的 正式 定义 ， 但 确实 规定 了 有 形 资产 不 是 资产 的 必要 特征 。 

国际 会 计 准 则 委员 会 第 38 号 (国际 会 计 准 则 第 38 号 ) 将 无 形 资产 定义 为 “无 物理 实 
质 可 辨认 的 非 货币 性 资产 ”。 

财务 会 计 准 则 委员 会 会 计 准 则 编制 330 (ASC 3500 将 无 形 资 产 定义 为 “缺乏 实质 的 资 
产 (金融 资产 除外 )”。 


Comprehension 

Blank filling 

1. Proper use of big data goes beyond collecting and analyzing large quantities of data; it 
also requires understanding to use the data in s 

2. Big data analytics can positively impact: product development, development, 
operational . Customer experience and . market demand 


Content Questions 
1. What is the biggest value created by insights from large data sets? 
2. In what ways has Big Data been impacting companies? 


Answers 


Blank filling 

1. how and when: making crucial decisions 

2. market; efficiency; loyalty: predictions 

Content Questions 

1. The biggest value created by these timely, meaningful insights from large data sets is 
often the effective enterprise decision-making that the insights enable. 

2. It has revolutionized old-school industries. It has given birth to a new industry. It 


improves business regardless of company size. 
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企业 正在 利用 大 数据 提供 的 强大 的 洞察 力 来 实时 确定 谁 在 何 时 何 地 做 了 什么 。 这 些 来 
自 大 型 数据 集 的 实时 的 、 有 意义 的 结论 创造 出 的 价值 ， 经 常 为 具有 远见 的 高 效 企业 提供 
决策 。 

大 数据 机 会 同样 也 是 重大 的 挑战 。 掌 握 大 数据 管理 这 门 新 兴学 科 的 企业 可 以 获得 巨大 
回报 ， 并 与 竞争 对 手 拉 开 距离 。 事 实 上 ， 麻 省 理工 学 院 斯 隆 管 理学 院 经济 学 家 Erik 
Brynjolfsson 所 做 的 研究 表明 ， 使 用 “数据 导向 决策 ”的 公司 的 生产 力 提高 了 五 到 六 个 百 分 
点 。 大 数据 的 正确 使 用 超出 了 收集 和 分 析 大 量 数据 的 范畴 ， 它 还 需要 了 解 何 时 和 如 何 使 用 
数据 做 出 决策 。 

利用 正确 的 数据 可 以 大 大 提高 竞争 优势 。 根 据 麦 肯 锡 的 研究 报告 ， 美 国医 疗 保健 行业 
数据 的 潜在 价值 可 能 每 年 超过 3000 亿美 元 ,其 中 三 分 之 二 将 可 使 国民 医疗 支出 降低 约 896. 

当 数据 管理 过 程 与 企业 战略 相 一 致 时 ， 可 以 实现 财务 效益 ， 这 时 候 可 能 就 需要 高 层 管 
理 人 员 参 与 确定 方向 并 监督 重大 决策 。 

大 数据 分 析 可 以 在 以 下 方面 产生 积极 影响 : 

e 产品 开发 ; 

. 市 场 发 展 ; 

。 运营 效率 ; 

。 客户 体验 和 忠诚 度 ; 

。 市 场 需求 预测 。 

大 数据 是 当今 商人 的 流行 语 。 无 论 行业 或 公司 规模 如 何 ， 它 都 会 被 热 议 。 大 数据 至 少 
有 三 种 影响 公司 发 展 的 方式 。 

1， 它 彻底 改变 了 行业 的 旧 模 式 

9Lenses 公司 首席 执行 官 Edwin Miller 说 :“ 大 数据 对 于 从 客户 关系 到 供应 链 管 理 的 业 
务 都 产生 了 巨大 的 影响 ， 并 将 持续 这 样 影响 下 去 。” 虽 然 许多 人 可 能 没有 意识 到 这 一 点 , 但 
大 数据 确实 对 许多 传统 业务 产生 了 重大 影响 。 

Capital One 公司 就 是 一 个 很 好 的 例子 。20 世纪 90 年 代 ， 信 用 卡 行业 利用 统一 定价 模 
式 对 每 个 客户 收取 相同 的 价格 ， 除 了 Capital One。 该 公司 使 用 基于 公共 信贷 和 人 口 统计 数 
据 的 统计 模型 为 客户 提供 “ 量 身 定制 ”的 产品 。 这 一 创新 是 1994—2003 年 期 间 的 净 收 入 实 
现 32% 复 合 年 增长 的 发 展 基石 之 一 。 因 此 ， 许 多 银行 已 将 重点 转移 到 大 数据 分 析 ， 但 开拓 
者 似乎 保持 了 优势 。2009 一 2014 年 ， 与 美国 顶级 银行 《如 花旗 集团 11%、 美 国 银行 11%, 
美国 摩根 大 通 6%) 相 比 ， 其 年 度 净 收 入 增长 了 1796. 

劳 斯 莱 斯 在 应 用 大 数据 分 析 方 面 的 成 功 影响 了 飞机 发 动机 制造 业 。 该 公司 始终 如 一 地 
监控 着 约 3,700 台 发 动机 ， 每 台 发 动机 都 安装 有 数 百 个 传感器 ， 用 来 预测 发 生 故 障 的 时 间 
和 位 置 。 劳 斯 莱 斯 已 经 从 仅 销售 发 动机 转变 为 销售 发 动机 和 监控 服务 的 组 合 ， 然 后 根据 使 
用 、 维 修 和 更 换 情况 向 客户 收费 。 该 服务 目前 占 飞 机 发 动机 部 门 年 收入 的 70% 以 上 。 

另 一 个 完美 的 例子 是 世界 上 最 大 的 零售 商 沃尔玛 (如 图 5-1 所 示 )。 沃尔玛 是 当今 大 数 
据 分 析 的 知名 用 户 ， 但 在 20 世纪 90 年 代 ， 沃 尔 玛 对 零售 业 进行 了 革命 ， 它 通过 一 个 被 称 
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为 零售 链接 〈Retail Link) 的 系统 ， 记 录 了 所 有 产品 的 各 种 属性 。 该 系统 为 供应 商 管理 自 
己 的 产品 提供 了 一 种 方式 ， 允 许 他们 监控 其 数据 ， 包 括 销售 和 库存 量 、 库 存 百分比 、 毛 利 
率 和 库存 周转 量 。 因 此 可 以 实现 将 库存 风险 和 相关 成 本 降低 。 根据 2001 年 麦肯锡 全 球 生产 
力 报告 ,沃尔玛 的 成 本 显著 降低 、 效 率 水 平 高 ,是 促成 1995 一 2000 年 商品 零售 行业 生产 力 
的 主要 因素 。 

2. 大 数据 促使 一 个 新 行业 的 诞生 

历史 上 ， 数 据 被 用 作 核 心 业务 的 辅助 部 件 ， 并 被 收集 用 于 特定 目的 。 零 售 商 记录 销售 
青 况 以 进行 会 计 核 算 ， 制 造 商 记录 了 原材料 以 进行 质量 管理 ， 人 们 收集 了 广告 横幅 上 的 鼠 
标点 击 次 数 以 计算 广告 收入 。 但 随 着 对 大 数据 分 析 需 求 的 出 现 ， 数 据 不 再 仅 拥有 其 作为 原 
始 数据 时 的 功能 与 目的 。 能 够 获取 大 量 数据 的 公司 具有 宝贵 的 资产 ， 当 与 分 析 能 力 相 结合 
时 ， 创 造 了 一 个 全 新 的 行业 。 

ITA Software 是 一 家 私人 公司 ， 该 公司 从 几乎 所 有 主要 航空 公司 收集 航班 价格 数据 ， 
除了 将 这 些 信息 出 售 给 旅行 社 和 网 站 的 Jet Blue 和 西南 航空 公司 。Google 于 2011 年 以 7 
亿美 元 收购 ITA Software。 通 过 Google 的 专家 分 析 和 更 多 的 数据 处 理 ，ITA 今天 可 以 提供 
航班 、 酒 店 、 购 物 等 的 价格 预测 。 

像 ITA 这 样 公司 的 成 功 有 助 于 加 速 大 数据 创业 公司 的 蓬勃 发 展 。 根 据 网 站 angel.com 
提供 的 数据 显示 ，2010 年 11 月 以 来 , 已 有 2924 个 大 数据 创业 公司 。 这 些 公司 经 常 作 为 数 
据 分 析 公 司 、 数 据 提供 商 或 交易 商 ， 受 到 投资 者 的 关注 。2015 年 第 二 季度 ， 美 国 大 数据 创 
业 公司 的 风险 投资 资金 达 191.9 亿美 元 。 

这 个 新 兴 行业 的 另 一 个 显著 的 例子 是 去 年 IBM 和 Twitter (图 5-3) 之 间 的 战略 合作 伙 
伴 关系 。 IBM 和 Twitter 的 合作 ， 目 的 是 向 企业 客户 销售 分 析 信 息 。 全 球 领先 的 数据 和 分 
析 公 司 GBS 的 Glenn Finch 表示 ，IBM 将 Twitter 数据 与 其 他 公共 和 商业 资源 相 结合 ,“ 帮 
助 企 业 进 行 数 十 亿 次 实时 对 话 , 做 出 更 明智 的 决策 ”该 合作 伙伴 关系 帮助 两 家 公司 利用 各 
自 的 专业 领域 : IJBM 的 分 析 技 能 和 Twitter 的 数据 。 

3. 无 论 公司 规模 如 何 ， 大 数据 都 可 以 改善 业务 

很 明显 ， 大 公司 比较 小 的 公司 具有 优势 。“ 大 ”公司 意味 着 产生 大 量 的 数据 。 像 亚 马 
HAAI Google 这 样 的 科技 巨头 将 继续 受益 于 他 们 生成 的 大 量 数 据 。 亚 马 还 目前 在 185 个 国家 
拥有 大 约 2.7 亿 的 活跃 用 户 和 1600 万 个 产品 名 录 。Google 每 月 有 约 12 万 亿 次 搜索 量 ， 占 
互联 网 搜索 引擎 市 场 的 90% 左 右 ， 其 中 包括 超过 10 亿 YouTube 用 户 和 5 亿 Google Plus 
HP. 

但 这 不 是 故事 的 终点 ， 大 数据 实际 上 有 助 于 平衡 竞争 环境 。 处 理 芯片 和 数据 存储 等 技 
术 的 迅猛 发 展 已 经 达到 了 企业 以 非常 低 的 成 本 存储 和 利用 数据 的 一 个 关键 点 。 即 使 IT 预算 
有 限 ， 公 司 仍然 可 以 有 效 地 存储 数据 。 如 果 内 部 数据 不 足 ， 也 可 以 从 “数据 中 介 ” 中 廉价 
租用 数据 。 公 司 也 可 以 以 合理 的 价格 聘请 外 部 数据 分 析 公司 。 

招聘 公司 Riviera Partners 在 招聘 候选 人 方面 取得 成 功 的 例子 。 他 们 在 公共 资料 库 的 数 
据 库 中 交叉 参考 候选 人 的 资料 ， 以 挑选 最 适合 的 技能 ， 并 将 其 与 每 个 职位 相 匹配 。 
Telecomquotes.com 首席 执行 官 迈 克 尔 。 布 雷 默 (Michael Bremmer) 表示 ， 另 一 个 例子 是 
“连锁 餐厅 ”， 它 消除 了 对 实时 处 理 6 万 个 打 给 他 们 餐厅 的 电话 的 需求 ， 这 样 允 许 员 工 专注 
于 店内 容 户 。 
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新 的 项 目 也 受益 于 大 数据 创新 ， 马 里 西亚 咨询 公司 首席 执行 官 克里斯蒂 娜 。 罗 斯 
(Kristina Roth) 介绍 说 ,“ 通 过 大 量 数 据 , 企业 可 以 通过 从 每 个 改进 项 目 中 吸取 教训 并 加 以 
融合 运用 到 下 一 个 项 目 ， 从 而 更 快 、 更 好 并 降低 成 本 。” 

事实 上 ， 大 数据 应 用 程序 只 受 人 的 想象 力 的 束缚 。 汽 车 制造 商 等 企业 可 以 提高 运营 效 
率 ， 医 院 可 以 改善 患者 服务 ， 快 餐 公 司 可 以 更 好 地 管理 食品 交付 ， 这 样 继 续 下 去 ， 任 何 擅 
长 应 用 大 数据 的 业务 都 将 创造 竞争 优势 。 

很 明显 , 擅长 大 数据 的 人 才 得 到 市 场 认可 。 利 用 大 数据 的 公司 受到 投资 者 的 高 度 重视 。 
从 事 大 数据 业务 的 公司 的 市 最 率 相对 较 高 。 投 资 者 不 仅 可 以 评估 其 增长 值 ， 还 可 以 评估 其 
无 形 资产 ， 如 数据 量 和 分 析 能 力 。 

大 数据 正在 产生 巨大 的 影响 ， 并 会 作为 未 来 儿 年 业务 绩效 的 主要 推动 因素 继续 影响 
下 去 。 
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Text A 


Since Big Data is the buzzword today, and it is like the world | New Words and Expressions 
rushing behind this newly born celebrity, you must be wondering | optimize/‘pp.ti.maiz/ v. 
where exactly does this concept fit in? Without any introduction on | ”优化 ; 完善 


the much-known technology now, we tell you the real-life wearable gadgets 


穿戴 设备 
applications that would have been strangled to death had big data | clinical/'klm.1kal/ adj. 
had not been around. 临床 的 


epidemic/ ep.r'dem.1k/ n. 


Y Customer Analysis — Here, according to their past choices (疾病 的 ) 流行 。 传 染 


and dislikes, companies use big data to understand their 
customers and target them accordingly. Ever wonder how 
Google displays the ad. for the footwear you once viewed 
on your online shopping site? That is because every click 
of yours is a data crucial to the website, which is tracked 
to treat you likewise. 

Y Optimizing Business processes — Based on predictions 
from social media data and other trends from which useful 
information is chunked out, retailers optimize their stocks. 
Amazon is soon going to launch its delivery drone, which 
will make us of Big Data to get live traffic information 
from its route, and find the shortest possible path. 

Y Performance Optimization — For the individual self, it can 
be used to effectively analyze data from wearable gadgets! 
like fitbits, smart watches, which track the physical 
activity of a user and suggest on improving the fitness 








accordingly. 
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Y Healthcare sector - DNA strings can be decoded and 
patterns of diseases can be predicted within minutes, 
thanks to Big Data! Clinical trials in the future would not 
restrict themselves to a sample data size but can include 
everyone. Monitoring of epidemics too has been possible 
due to this technology. 

v [n Security and law Enforcement - The NSA? in US uses 
big data extensively to foil terrorist plots. It can even be 
used to predict criminal activities and cyber security 
breaches. 

v In the making of a smart city - While there is so much to 
hear about smart cities, what is going into the making of 
them is essentially big data. Smart traffic systems will be 
possible by real-time analysis of data from many sensors 
inside vehicles and streets. Internet of things is another 
such concept which will help almost everything to be 
connected to the Internet. And, that means everything 
producing humongous data which needs storage and 
analysis and curtain. 

It is not only these fields where Big Data is playing a big role, 
but many other such applications where it proudly finds its place 
(shown in Figure 6-1). It is not imperative, but it is a necessity now 
that we have conceived the idea and one so far with it. It has the 
potential to change the world, for the better, of course! 

5 amazing *real-world" uses of big data 

As an Information and Data Management professional, you've 
probably been asked what you do for work and found yourself 
trying to describe Big Data. Even those of us in the industry 
struggle sometimes to adequately define the breadth and scope of 
what Big Data is, and what it can do. 

Or maybe you've been considering your next career move, and 
what the options are for using your skills and experience in Big 
Data? It can be a challenge to see the forest for the trees when we 
get bogged down in one project or job role, and lose sight of the 
bigger picture and what other opportunities might exist. With these 
thoughts in mind, here are what we consider to be some of the most 


exciting and innovative real world applications for Big Data today. 
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New Words and Expressions 


sensor/'sen.sor/ n. 
传感器 
Security and law Enforcement 
安全 执法 
foil/foil/ v. 
挫败 ， 阻 止 ， 制 止 
terrorist plots 
Rathi oF ih D 
humongous/hju:'man.gas/ adj. 
极 大 的 ， 硕 大 无 比 的 
curation/kjoo rer. fon/ n. 
SUR; 治 您 ， 治 疗 
imperative/1m per.o.ttv/ adj. 
极 重要 的 
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Figure 6-1 


1. Disaster relief 

Simply put, Big Data is the gathering of tremendous amounts 
of data from multiple sources, and analyzing it for insights and 
solutions. In the case of disaster management, it can make sense of 
chaos in ways that can literally save lives. Crowdsourced, 
grassroots efforts have arisen in response to earthquakes, typhoons 
and earthquakes, helping victims and relief workers in equal 
measure. And increasingly, officials at humanitarian organizations 
and government agencies are formalizing efforts to fund and 
maintain networks of maps, satellite images, communications and 
infrastructure data, and other information that will bolster the speed 
and efficiency of their efforts. Whether prevention or planning. 
relief or recovery — Big Data can play a crucial role in improving 
the way we respond to disaster. 

2. Public health and research 

Another sector where Big Data is improving lives is public 
health. Through the collection and analysis of large datasets, Big 
Data specialists are making astonishing strides in genetic and 
medical research, and creating improved outcomes for the treatment 
and prevention of disease — not to mention increasing value for the 
healthcare system through coordinated care initiatives. To give an 
example, the top public healthcare system in Germany implemented 
a proprietary analytics tool that mines and predicts outcomes for 


data that is growing exponentially. By targeting their research, they 





New Words and Expressions 


scope/skaup/ n. 
范围 

get bogged down in 
陷入 泥沼 

typhoon'/tar fu:n/ n. 
人 台风 


sensor/'sen.sor/ n. 
传感器 
bolster/'baol.stor/ v. 
支撑 ; 加 固 
proprietary/pro'praro.tor.i/ adj. 
专 有 的 


exponentially/'ek.spo'nen.foli/ 
adv. 

以 指数 方式 
hospitalization 
/hps.pr.tol.ar'zer.fo n/ n. 

医院 收容 ， 住 院 治疗 
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were able to identify patients with a 90% chance of hospitalization 
within the year with a congestive heart failure diagnosis. On an 
even larger scale, Big Data can similarly be used to monitor and 
predict epidemics, and hopefully prevent them. 

3. Weather forecasting and climate change 

Thanks to the growth in both the numbers of sensors and 
satellites in operation, and in the speed at which the input can be 
processed, Big Data plays an important role in predicting weather 
patterns and in particular, cataclysmic events. Data improves the 
ability to accurately predict the timing and intensity of storms, 
potentially saving human lives and minimizing destruction of 
property and infrastructure. Taking the longer view, data also 
increases the understanding of the impact of climate change, both 
from a meteorological and economic perspective, and is pivotal in 
the work being done in natural resource management, food and 
agriculture, ecology and material sciences — the list goes on. 
Recognizing this, last year the U.N.'s Global Pulse program (for the 
use of data in development and humanitarian efforts) launched its 
Big Data Climate Challenge. 

4. Financial services 

Weather isn't the only thing that calls for an accurate forecast. 
Financial institutions are increasingly harnessing the power of Big 
Data for sophisticated financial modeling, determining demand and 
costs, and cushioning the impact of financial and currency 
upheavals. Private corporations, such as banks and brokerages, as 
well as governing agencies and non-profits, are working to predict 
the occurrences and effects of global financial events on both a 
micro and macro scale. By creating detailed, scenario-based 
forecasts, organizations can identify key weaknesses for global 
economies and financial markets under various conditions and 
develop courses of action. Like retailers before them, financial 
institutions are also more reliant on data to obtain a 360-degree 
view of their customers, to better target products and services and 
create a competitive advantage. 

5. Sport and entertainment 

Fortunately, not every application of data has life-or-death 
implications (although arguably that could depend on how ardently 
you support your team). The world of sport relies on the analysts in 


its lineup just as much as its top goal-scorers. From daily decisions 
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New Words and Expressions 


sensor/'sen.sor/ n. 
传感器 
cataclysmic/'ket.o.klr.zom/ 
adj. 
大 变动 的 
meteorological 
/,mi:.ti.2.ro'Inds.r.kol/ adj. 
气象 的 
cushion/ kof.on/ v. 
对 ( 某 事物 的 影响 或 力量 ) RR 
冲 作用 
upheaval/Ap'hi:.vol/ n. 
Hk. 动荡 ;剧变 
reliant on 
依赖 
implication/ m.plr ker.fon/ n. 
含意 ;上 暗 指 ， 上 暗示 
ardently/'a:.dntli/ adv. 
热心 地 
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such as choosing the starting players, to bigger issues such as 
developing long-term prospects and creating marketing franchises, 
Big Data is a star performer. Data also drives our favourite ent - 
ertainment options, such as Apple Music or Netflix, which use vast 
amounts of data to optimize streaming performance and personalize 
recommendations for users. 

Note: 

The text is adapted from the website: 
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franchise/ frzn.tfarz/ n. 
特许 经 销 权 





http://www.linkedin.com/pulse/awesome-real-world-applications-big-data-quest-eduventures. 


Terms 


1. wearable gadgets 


Wearable gadgets are usually high-tech equipment, which are so small that people can wear 


on heads or wrists. 


可 穿戴 设备 通常 是 高 科技 设备 ， 这 些 设 备 非常 小 ， 人 们 可 以 戴 在 头 上 或 手腕 上 。 


2.NSA 
National Security Agency， 国 家 安全 局 。 





Comprehension 

Blank filling 

1. According to customers’ past choices and dislikes, companies use big data to 
and > 

2. Based on from social media data and other 


information is chunked out, retailers optimize their stocks. 


from which useful 


3. DNA strings can be and patterns of diseases can be within minutes, 


thanks to Big Data! Clinical trials in the future would not restrict themselves to a sample 


data size but can include 


4. Smart traffic systems will be possible by real-time analysis of data from many 


inside vehicles and streets. 
Content Questions 
1. Which areas can Big data be applied in? 
2. What can big data be used for? 


3. How the retailers optimize their stocks? 


4. Why Big Data can play a crucial role in improving the way we respond to disaster? 


5. Why Big Data plays an important role in predicting weather patterns? 
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Answers 


Blank filling 

1. understand their customers; target them accordingly 

2. predictions; trends 

3. decoded; predicted; everyone 

4. sensors 

Content Questions 

1. Disaster relief, Public health and research, Weather forecasting and climate change, 
Financial services, Sport and entertainment and so on. 


N 


. Customer Analysis, Optimizing Business processes, Performance Optimization, 
Healthcare sector, In Security and law Enforcement, In the making of a smart city. 


w 


. Based on predictions from social media data and other trends from which useful 
information is chunked out. 

4. Officials at humanitarian organizations and government agencies are formalizing efforts 

to fund and maintain networks of maps, satellite images, communications and 

infrastructure data, and other information that will bolster the speed and efficiency of 

their efforts. 


n 


. Data improves the ability to accurately predict the timing and intensity of storms, 
potentially saving human lives and minimising destruction of property and infrastructure. 
Data also increases the understanding of the impact of climate change, both from a 
meteorological and economic perspective, and is pivotal in the work being done in 
natural resource management, food and agriculture, ecology and material sciences. 


和 参考 译文 


当今 时 代 ， 大 数据 是 最 流行 的 词汇 ， 它 就 像 一 个 正当 红 的 明星 。 你 一 定 想 知道 大 数据 
都 应 用 在 了 哪里 ? 可 以 说 ， 如 果 没 有 它 ， 现 实生 活 中 的 很 多 应 用 程序 就 会 无 法 正常 运行 。 

客户 分 析 一 一 根据 客户 以 往 表现 出 来 的 喜好 ， 公 司 使 用 大 数据 来 了 解 客户 并 对 其 进行 
个 体 定位 。 当 你 在 购物 网 站 浏览 了 鞋 类 后 ，Google 就 能 向 您 显示 关于 鞋 的 广告 ,这 是 因为 
对 于 网 站 来 说 ， 用 户 的 每 一 次 点 击 都 是 收集 其 喜爱 偏好 的 重要 的 数据 。 

优化 业务 流程 一 一 基于 社交 媒体 和 其 他 数据 的 趋势 走向 ， 零 售 商 可 以 优化 其 库存 。 亚 
马 进 即 将 推出 无 人 机 ， 这 将 使 我 们 在 大 数据 的 帮助 下 ， 获 取 实 时 交通 信息 ， 并 找到 综合 最 
优 路 径 〈 综 合 考虑 路 线 长 短 、 道 路 拥堵 等 情况 )。 

性 能 优化 一 一 目前 ， 可 穿戴 式 设 备 〈 如 fitbits 系列 、 智 能 手表 等 ) 可 以 收集 人 类 个 体 
的 数据 进行 分 析 ， 并 跟踪 用 户 的 身体 活动 ， 给 出 更 适合 个 人 的 关于 运动 、 保 养 等 的 建议 。 

医疗 行业 一 一 解码 DNA 链 ， 可 以 在 数 分 钟 内 预测 疾病 的 种 类 ， 这 都 要 归功 于 大 数据 ! 
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未 来 的 临床 试验 不 会 局 限于 单一 样本 〈 志 愿 者 们 、 患 者 等 ) 的 数据 范畴 ， 而 是 包括 所 有 人 
(对 所 有 人 均 有 效 )。 基 于 此 技术 ， 未 来 对 疫情 监测 也 是 可 行 的 。 

安全 和 执法 一 一 美国 国家 安全 局 广泛 使 用 大 数据 来 遏制 丽 怖 主义 分 子 。 甚 至 可 以 用 来 
预测 犯罪 活动 和 网 络 安全 漏洞 。 

打造 智能 城市 一 一 众所周知 ， 智 能 城市 都 源 自 于 大 数据 。 通 过 实时 分 析 车 辆 和 街道 中 
许多 传感器 的 数据 ， 从 而 实现 智能 交通 系统 。 物 联网 也 是 一 个 新 的 概念 ， 也 就 是 物 物 相连 
的 互联 网 ， 这 就 意味 着 物 联网 中 所 有 的 “ 物 ” 都 会 产生 数据 ， 如 此 海量 的 数据 需要 进一步 
的 存储 分 析 和 管理 。 

大 数据 不 仅 在 这 些 领 域 发 挥 了 重要 作用 , 在 许多 其 他 类 似 应 用 中 , 也 能 看 到 它 的 影子 。 
它 可 能 不 是 势 在 必 行 的 ， 但 现在 我 们 必须 把 迄今 为 止 出 现 的 理念 构想 出 来 。 当 然 ， 它 有 更 
好 的 改变 世界 的 潜力 ! 

5 个 惊人 的 “现实 世界 ”大 数据 的 应 用 

作为 信息 和 数据 管理 专业 人 士 , 可 能 经 常 被 询问 自己 所 做 的 工作 , 并 尝试 描述 大 数据 。 
即使 我 们 这 些 业内 人 士 ， 有 时 也 要 费心 思 确定 大 数据 的 广度 和 范围 ， 以 及 它 能 做 什么 。 

可 能 你 正在 考虑 你 的 下 一 个 职业 生涯 ， 利 用 你 的 技能 和 经 验 在 大 数据 中 做 着 何 种 选 
Te? 当 我 们 在 一 个 项 目 或 工作 角色 中 遇 到 问题 时 ， 很 容易 一 叶 障 目 ， 从 而 忽略 了 更 大 的 图 
景 和 其 他 可 能 存在 的 机 会 。 那 就 带 着 这 些 想法 ， 来 看 看 当今 现实 世界 最 令 人 兴奋 和 最 具有 
创意 的 大 数据 应 用 。 

1. 救灾 

简单 来 说 ， 大 数据 就 是 从 多 个 来 源 收 集 大 量 数据 ， 分 析 这 些 数据 并 给 出 解决 方案 。 在 
救灾 中 ， 它 可 以 给 救灾 人 员 提供 方案 。 众 所 周知 ， 它 在 台风 和 地 震 救 灾 中 做 出 了 贡献 ， 帮 
助 灾 民 和 救援 人 员 等 。 越 来 越 多 的 人 道 主义 组 织 和 政府 机 构 的 官员 正在 努力 资助 和 维护 地 
图 、 卫 星 图 像 、 通 信和 基础 设施 数据 网 络 等 信息 ， 并 将 加 强 其 工作 的 速度 和 效率 。 无 论 是 
预防 、 规 划 、 救 济 或 恢复 ， 都 体现 了 大 数据 在 改善 我 们 应 对 灾难 的 方式 方面 发 挥 着 关键 
作用 。 

2. 公共 卫生 与 研究 

大 数据 也 在 公共 卫生 方面 改善 着 生活 。 通 过 收集 和 分 析 数 据 ， 大 数据 专家 在 遗传 和 医 
学 研究 方面 取得 了 惊人 的 进步 ， 并 在 治疗 和 预防 疾病 中 创造 了 更 好 的 成 果 ， 通 过 完善 护理 
措施 增加 医疗 系统 的 价值 。 例 如 ， 德 国 最 重要 的 公共 医疗 系统 使 用 了 专 有 的 分 析 工 具 ， 预 
测 数 据 呈 指数 级 增长 的 结果 。 通 过 他 们 的 研究 ， 可 以 有 90% 的 概率 识别 出 一 年 内 因 充 血性 
心力 衰竭 住院 的 患者 。 在 更 大 程度 上 ， 大 数据 也 可 以 用 于 监测 和 预测 流行 病 ， 并 有 希望 能 
够 阻止 它们 的 发 生 。 

3. 预报 天 气 和 气候 变化 
由 于 传感器 和 卫星 数量 的 增长 以 及 处 理 速度 的 提高 ， 大 数据 在 预测 天 气 ， 尤 其 是 灾难 
性 事件 中 起 着 重要 的 作用 。 数 据 能 够 准确 预测 风暴 时 机 和 强度 ， 有 可 能 会 挽救 生命 并 能 最 
大 限度 地 减少 财产 和 基础 设施 的 破坏 。 长 远 来 看 ， 数 据 还 增加 了 对 气候 变化 影响 的 理解 ， 
无 论 是 从 气象 、 经 济 、 自 然 资源 管理 、 食 品 和 农业 、 生 态 和 材料 科学 方面 来 看 ， 它 所 做 的 
工作 都 很 关键 。 认 识 到 这 一 点 ， 去 年 联合 国 的 “全 球 脉搏 ”计划 《〈 在 数据 开发 和 人 道 主义 
工作 中 使 用 ) 发 起 了 大 数据 气候 挑战 。 
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4. 金融 服务 

天 气 并 不 是 唯一 需要 精准 预报 的 领域 。 金 融 机 构 越 来 越 多 地 利用 大 数据 的 力量 进行 复 
杂 的 金融 建 模 ， 以 确定 需求 和 成 本 ,缓冲 金融 和 货币 动荡 的 影响 。 私 营 企 业 ， 如 银行 和 经 
纪 公 司 ， 以 及 管理 机 构 和 非 营 利 机 构 ， 在 微观 和 宏观 尺度 上 努力 预测 全 球 金 融 事 件 的 发 生 
和 影响 。 通 过 建立 详细 的 基于 情景 的 预测 ， 企 业 可 以 在 各 种 条 件 下 找 出 全 球 经 济 和 金融 市 
场 的 关键 弱点 ， 并 制定 行动 计划 。 与 零售 商 一 样 ， 金 融 机 构 也 更 依赖 于 数据 来 获得 客户 的 
全 方位 视角 ， 从 而 更 好 地 瞄准 产品 和 服务 ， 创 造 竞争 优势 。 

5. 体育 和 娱乐 

幸运 的 是 ， 并 不 是 每 一 个 大 数据 应 用 程序 都 有 生死 依 关 的 影响 〈 尽 管 可 以 说 这 可 能 取 
决 于 你 如 何 支持 你 的 团队 )。 体 育 世 界 需 要 的 分 析 师 数量 与 其 顶级 目标 得 分 手 的 数量 一 样 
多 。 例 如 从 选择 起 始 球员 的 日 常 决策 到 长 期 发 展 的 前 景 并 在 创造 营销 专营 权 这 种 更 大 的 问 
题 ， 大 数据 很 在 行 。 大 数据 还 驱动 着 我 们 最 喜欢 的 娱乐 选项 ， 如 Apple Music 或 Netflix， 
它们 使 用 大 量 的 数据 来 优化 性 能 和 用 户 个 性 化 推荐 。 


Text B 

















Interesting Application of Big Data Analytics New Words and Expressions 
Humans are doing two activities continuously: first is breathing and | escalate/'es ko lert/ v. 


the second one, generating data continuously. There is a constant (使 ) 增强 ; (使 ) 扩大 
enormity/r'no:.mo.ti/ n. 


data generation that takes place. With the advent of mobile Ek; PEI FAYH 


technology, this process has escalated manifold giving rise to 
humongous amount of data. To give you the enormity of data, the 
Ericsson report said that the world wide data generated through 
mobile reached 7ZB in 2014. Also, the report predicts data 
generation to reach 2GB per mobile device per month by 2018. 

The companies providing communication services (Mobile, 
telecommunication) can use this data to strategize wide range of 
activities in order to provide more competitive offers to the 
consumers, work on the pricing and packages of the product. The 
data can be used to enhance consumer experience, which further 


increases the customer loyalty. This can be done by creating 





smarter networks along with the extension of various functionality 
in order to provide an organized networked society. 

Data analytics is an opportunity for the marketers to get 
maximum benefits to the organization. The most important usage of 
big data analytics is to understand the consumer behavior. Using the 


findings the user can effectively target the right audience thus 





making the optimum use of the budget. Predictive analytics enhance 
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the targeting even more. For example, a company making baby 
products will benefit if they come to know which customer is due to 
deliver a baby in the recent future. 

Secondly, big data is also used to optimize various business 
processes. One particular industry which is using this technique to a 
great extent is the supply chain industry. It is done by collecting 
data using various sensors which track the movement of the goods 
and vehicles. Another industry where the analytics are used 
extensively is to optimize the talent acquisition process by the HR 
professionals. 

Big data has its applications on individual levels as well. For 
example, various wearable technologies like smart watch and smart 
fitness brand generate data at individual level. It uses analytics 
accompanied with data visualization technique in order to make the 
finding more engaging and presentable to the user. Another 
important application of big data is the financial trading. It is an 
area which involves high frequency of transactions. The brevity of 
the application is critical in this domain as it includes buying and 
selling of huge amount of capital in split seconds. 

Apart from the above mentioned domains, big data has a big 
role to play in other fields like health, insurance, research, etc. 
Gradually, the corporate ecosystem is adapting to this new tool in 
order to optimize the business bottom-line. 


Note: 
The text is adapted from the website: 





New Words and Expressions 


— geidzm/ adj. 
迷人 的 ; 吸引 人 的 

presentable/prr'zentəbl/ adj. 
像样 的 ; 
听 的 

brevity/'brevəti/ n. 
简洁 ; 短暂 


拿 得 出 的 ; 中 看 的 ;中 








http://www.linkedin.com/pulse/4-interesting-application-big-data-analytics-richa-kapoor. 


参考 译文 


大 数据 分 析 的 有 趣 应 用 





人 类 在 不 断 地 做 两 个 活动 : 第 一 是 呼吸 ， 第 二 个 是 不 断 生成 数据 。 随 着 移动 技术 的 出 





现 ， 这 个 过 程 已 经 升级 ， 导 致 数据 量 越 来 越 庞大 。 


爱立信 





每 个 移动 设备 每 月 的 数据 生成 量 将 达到 2GB。 


告 说 ， 为 了 给 
数据 服务 ， 到 2014 年 ， 通 过 手机 生成 的 全 球 数据 达到 7ZB。 此 入 


人 们 提供 巨大 的 
， 该 报告 预测 到 2018 年 ， 


提供 通信 服务 的 公司 《〈 手 机 公司 ， 电 信 公 司 ) 可 以 根据 这 些 数据 来 策划 很 多 的 活动 ， 
用 来 向 消费 者 提供 更 具 竞 争 力 的 优惠 ， 并 对 产品 的 定价 和 包装 进行 处 理 。 数 据 可 用 于 提升 
消费 者 体验 ， 进 一 步 提升 客户 忠诚 度 。 这 些 都 可 以 通过 创建 更 智能 的 网 络 以 及 各 种 功能 的 
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扩展 来 实现 ， 提 供 有 组 织 的 网 络 社会 。 

数据 分 析 是 营销 人 员 获 得 最 大 收益 的 机 会 。 大 数据 分 析 的 最 重要 用 途 是 了 解 消费 者 行 
为 。 利 用 分 析 结 果 ， 公 司 可 以 有 效 地 瞄准 正确 的 受众 ， 从 而 最 大 限度 地 利用 预算 。 预 测 分 
析 可 以 准确 发 现 目标 。 例如， 一 家 生产 婴儿 产品 的 公司 如 果 知道 哪个 客户 在 最 近 将 要 生 下 
宝宝 ， 将 会 由 此 获 益 。 
其 次 , 大 数据 也 用 于 优化 各 种 业务 流程 。 在 很 大 程度 上 使 用 这 种 技术 的 是 供应 链 行业 。 
它们 通过 使 用 跟踪 货物 和 车 辆 运动 的 各 种 传感器 收集 数据 来 完成 这 个 过 程 。 广 泛 使 用 大 数 
据 分 析 的 另 一 个 行业 是 人 力 资源 ， 优 化 专业 人 才 的 获取 过 程 。 

大 数据 也 适用 于 各 个 应 用 层面 。 例 如 ， 智 能 手表 和 智能 健身 品牌 的 各 种 可 穿戴 技术 产 
生 大 量 数据 。 使 用 基于 数据 可 视 化 技术 的 分 析 , 可 以 找到 更 具 吸 引力 和 可 视 的 方案 给 用 户 。 
大 数据 的 另 一 个 重要 应 用 是 金融 交易 。 这 是 一 个 涉及 高 频率 交易 的 领域 。 应 用 程序 的 简洁 
性 在 这 个 领域 至 关 重 要 ， 因 为 它 在 几 秒 钟 内 就 有 大 量 的 资本 交易 发 生 。 

除了 上 述 领域 外 ， 大 数据 在 健康 、 保 险 、 研 究 等 领域 发 挥 着 重要 人 作用。 逐渐 地 ， 企 业 
生态 系统 正在 适应 这 种 新 工具 ， 以 优化 业务 底线 。 
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Chapter 7 


Big Data in Recruitment Marketing 





Text A 


The role of the HR pro is drastically changing, as well as the role of 
recruiters. Even those smaller, sort of autopilot tasks are evolving 
with data-driven changes. As recruiters pick up and learn one tool, 
another, more sophisticated tool comes along to replace it. Well, the 
recruitment tool of right now is big data. Big data can be utilized in 
almost any area of business, but right now let's talk about big data 
and its application in recruitment marketing. 

"What's certain is that big data is the future of job recruiting 
and development, and understanding how to make sense of it will be 
critical to a company's success. These days, big data is helping 
fast-growing companies find their perfect engineers, developers and 
executives." - Michael A. Morell, Riviera Partners 

As the role of the recruiter evolves, recruiters are picking up 
several of the skills that traditionally marketers have required, but 
they are also becoming quite the data analysts (don't worry, 
reporting and analysis tools do most of the heavy lifting). Recruiters 
are now using data-driven recruitment marketing to strategically 
attract and retain quality talent — both mounting concerns for the 
majority of business leaders. 

No More Pin the Job on the Donkey! 

The days of post and pray are over. Recruiters can now gather 

a wealth of actionable data from job boards. Objective information 


can be collected from job postings to help recruiters use this 








New Words and Expressions 


sophisticated/so fis.tr.ker.trd/ 
adj. 
精密 的 ， 复 杂 的 ; 高 级 的 
retain/rr tem/ v. 
保持 ; 保留 ; 保有 
mounting/ mavn.tm/ adj. 
增加 的 ; 加 剧 的 
pin/pm/ v. 
(用 别针 等 ) 别 住 ， 钉 住 ， 固 定 
住 
a wealth of 
AX. EU 
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popular recruitment medium optimally, and craft the best | New Words and Expressions 
recruitment messaging possible. Then, find the magical | allocate/'zl.a ket/ v. 


combination between placement and messaging factors. 分 配 ， 分派 
niche manner 


利 基 方 式 
through this data, to reach the highest likelihood of enlarging the | ROI 


talent pool for each position. Previously, targeting sources was a bit 投资 回报 率 


Next, recruiters are able to target specific talent sources 


of a risky business. To allocate spend in a niche manner, could 
mean totally blowing your budget on an attraction avenue with no 
ROI. Making you look like a… donkey. 

Now, applying big data to this process will result in the 
creation of free-flowing talent pipelines, which in turn will decrease 
time-to-fill rates. Job boards are no longer the frustrating and costly 
game of pin the job on the donkey. Recruiters can now use job 
boards with data-driven action. All of this contributes to the smarter 
and more effective allocation of your recruitment budget. 

The Magic 8 Ball? of Recruiting 

Until very recently, recruiters have been obsessed with a small 
pool of recruiting metrics. Well, of course now we know recruiters 
have to stop looking to the past for answers, and make the big 
switch to predictive analytics. Predictive analytics are found in the 
recruiting data that you already have; they are simply the 
connection of those data points. Predictive analytics help recruiters 
ask and answer the right questions. 

* How many days does it take to hire an IT professional in 

Los Angeles? 

e On what day, during which hours do IT professionals apply 
for jobs? 

e What job boards do IT professionals from Los Angeles use 
most often? 

e What is the application abandonment rate for an IT 
professional from Los Angeles on a non-mobile optimized 
site? 

I could go on forever with questions that can help recruiters 
target, attract and sign the talent they need, exactly when they need 
it. Big data connects the data points that give recruiters the answers. 
Big data reveals the trends we don't see on the surface (or even 
under it, for that matter). This knowledge arms recruiters with the 
confident agility to tailor their methods and budgets for the best 


recruitment marketing efforts possible. 
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The big data movement has proven effective and will, 
therefore, last. A recent Deloitte study revealed 57% of human 
resources departments increased their spend on analytics. This is the 
direct result of tools that render previously useless data, now 
actionable and objective information. Recruiters today have solid 
data to replace assumptions and best guesses. 

As mentioned before, recruiters will not have to be analytical, 
mathematical clairvoyants, but they will need to be armed with the 
appropriate reporting and analytics tools. No one can achieve this 
level of highly targeted recruitment marketing without technology 
that turns backward-facing data into useful analytics. 

Bio: Kelly Robinson 

Kelly Robinson is the founder and CEO of Broadbean 
Technology, a sourcing and recruitment technology company. 
Broadbean Technology has created a strong global presence with 
offices in the US, Europe and Australia. The company remains true 
to the core fundamentals of its inception: "Keep it light and fun 
while getting the job done!" Kelly writes about leadership and 
culture, as well as reducing friction in the candidate experience. 
The Importance of Big Data in Recruitment 

The recruitment space is fast moving and heavily reliant on 
technology — it's become an industry of first-adopters, first within 
social media and now within Big Data and analytics. 

Big Data has been used in a variety of industries to make better 
decisions and also to drive new avenues for revenue and growth. It 
is however not the only tool that companies need in order to recruit 
the best talent, but it certainly gives companies another option from 
which to design and implement new hiring strategies. 

If a company is experiencing high turnover, it's likely that 
there will be an entrenched, reoccurring problem that's causing the 
issue. Whether it be commuting times, a repeated incident with a 
specific manager or inflexible working hours, data can help find 
solutions to these problems and it's because this that analytics within 
HR has a high adoption level. 

Big Data has made great strides in a company's ability to 
predict when and how it should approach potential employees. 
From understanding which boards will yield the most responses, to 
discovering a specific time which prospective candidates are more 
likely to respond to a job role, predictive analytics uses huge pools 








New Words and Expressions 


agility/o d3llatr n. 
Sue. Wu 


human resources 
人 力 资源 

clairvoyant/ kleo'vor.ont/ n. 
有 洞察 力 的 人 

friction/ frik. fon/ n. 
摩擦 力 ; 摩擦 
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of data to discover valuable trends and the facets of a job 
description which attracts the best talent to the role. 

Start-ups such as ‘Gild’ have also caught the eye of many, 
helping recruiters delve deeper into the actions of web developers 
and scouring their public code and professional knowledge to give 
recruiters an accurate image of the quality of their work. Although 
concentrated within a niche area, there's considerable opportunity 
for this to be expanded to new roles in the near future. 

As mentioned before, technology in itself is having a real 
impact on the way recruiters attract and retain employees. With 
software programmes such as 'the Resumator now used to 
compliment more hard-line data driven programmes, technology is 
reshaping the recruitment world and allowing companies to attract 
the best talent. 

Note: 

The text is adapted from the website: 








New Words and Expressions 
reliant/rr lar.ont/ adj. 


信赖 的 ， 信 任 的 
avenue/'zv.o.nju:/ n. 
途径 
turnover/'t3:1,20.Vor/ n. 
AUR dE SE 
entrenched/m trentft/ n. 
ARR Hay 
inflexible/m flek.so.bol/ adj. 
不 可 改变 的 
scour/skaoor/ v. 


擦 净 ; 刷 掉 





http://www.linkedin.com/pulse/application-big-data- recruitment-marketing-kelly-robinson; 


http://www.linkedin.com/pulse/importance-big-data-recruitment-elliot-pannaman. 


Terms 


1. Pin the Job on the Donkey Pin the Tail on the Donkey 


Pin the Tail on the Donkey is a game played by groups of children. A picture of a donkey 


with a missing tail is tacked to a wall within easy reach of children. One at a time, each child is 
blindfolded and handed a paper “tail” with a push pin or thumbtack poked through it. The 
blindfolded child is then spun around until he or she is disoriented. The child gropes around and 
tries to pin the tail on the donkey. The player who pins their tail closest to the target, the 
donkey's rear, wins. 

Idiomatically, the term can be used derisively for any assigned activity which is pointless or 
for which a person has been handicapped (blindfolded). 

在 驴 上 挂 尾 巴 是 一 群 孩子 玩 的 游戏 。 一 头 驴子 尾巴 丢失 的 照片 贴 在 孩子 够 得 到 的 墙 
上 。 每 一 个 孩子 都 被 蒙 住 眼睛 ， 并 拿 着 一 个 带 推 针 或 图 钉 的 纸 “ 尾 巴 ”。 让 被 蒙 住 眼睛 的 
孩子 旋转 ， 直 到 他 或 她 迷失 方向 。 孩 子 们 摸索 着 ， 试 图 把 尾巴 钉 在 驴子 上 ， 谁 贴 的 尾巴 最 
靠近 目标 谁 赢得 比赛 。 

这 个 词 通 常用 于 指 任何 没有 意义 的 活动 或 者 指 一 个 人 被 蒙 住 眼睛 后 所 做 的 活动 。 

2. Magic 8 Ball 

The Magic 8-Ball is a toy used for fortune-telling or seeking advice, developed in the 1950s 














and manufactured by Mattel. It is often used in fiction, often for humor related to its giving very 
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accurate, very inaccurate, or otherwise statistically improbable answers. 

这 个 神奇 的 8 球 是 一 个 用 于 算命 或 寻求 建议 的 玩具 ， 它 是 在 20 世纪 50 年 代 开发 的 ， 
由 美 泰 公司 制造 。 它 经 常 被 用 于 小 说 中 ， 通 常 是 关于 它 的 该 谐 表达 ， 有 时 神奇 8 球 所 给 答 
案 非常 准确 ， 有 时 非常 不 准确 ， 或 者 在 统计 上 不 太 可 能 。 

















Comprehension 


Blank filling 

1. What's certain is that is the future of job recruiting and development, and 

understanding how to make sense of it will be critical to a company's success. 

2. Recruiters can now gather a wealth of from job boards. Objective 
information can be collected from to help recruiters use this popular 
recruitment medium optimally, and craft the best recruitment messaging possible. 

. Recruiters are able to target specific through data, to reach the highest 
likelihood of enlarging the for each position. 

4. Recruiters have to stop looking to the past for answers, and make the big switch to - 

. Predictive analytics are found in the that you already have: 
they are simply the of those data points. Predictive analytics help recruiters 
ask and answer the right questions. 


w 


Content Questions 

1. What competencies should a recruiter have? 

2. What are the characteristics of the recruitment space? 

3. What happens if a company is experiencing a high turnover? 
4. How to solve the problem caused by high turnover? 


Answers 


Blank filling 

1. big data 

2. actionable data; job postings 

3. talent sources; talent pool 

4. predictive analytics; recruiting data; connection 

Content Questions 

1. Recruiters will not have to be analytical, mathematical clairvoyants, but they will need to 
be armed with the appropriate reporting and analytics tools. 

2. The recruitment space is fast moving and heavily reliant on technology. 

3. It's likely that there will be an entrenched, reoccurring problem that's causing the issue. 

4. Data can help find solutions to these problems and it's because this that analytics within 
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HR has a high adoption level. 


参考 译文 


人 力 资源 专员 和 招聘 人 员 的 工作 正在 发 生 着 巨大 的 变化 。 就 连 一 些 轻松 的 机 械 化 的 工 
作 也 都 在 随 着 数据 驱动 的 变化 而 不 断 地 发 展 。 随 着 招聘 人 员 选 择 并 学 习 一 种 工具 ， 另 一 种 
复杂 的 工具 即将 替代 它 。 当 下 的 招聘 工具 是 大 数据 。 大 数据 几乎 可 以 应 用 到 所 有 领域 ， 那 
么 现在 我 们 就 来 讨论 一 下 大 数据 以 及 它 在 招聘 营销 中 的 应 用 。 

“可 以 肯定 的 是 ， 大 数据 是 招聘 工作 得 以 更 好 开展 的 未 来 ， 如 何 理解 这 一 点 对 于 公司 
能 否 成 功 是 至 关 重 要 的 。 如 今 ， 大 数据 正在 帮助 快速 发 展 的 公司 找到 适合 他 们 的 工程 师 、 
开发 人 员 和 高 管 。” 里 维 埃 拉 公 司 的 Michael A. Morell 说 道 。 

随 着 招聘 工作 的 开展 ， 招 聘 人 员 正 在 学 习 传 统 营销 人 员 所 需要 的 几 项 技能 ， 他 们 也 同 
时 担任 着 数据 分 析 师 (不 用 担心 , 分 析 工 具 会 帮助 解决 大 部 分 工作 )。 招 聘 人 员 现 在 正在 使 
用 大 数据 下 的 招聘 营销 来 战略 性 地 吸引 和 留 住 优质 人 才 一 一 这 引起 了 很 多 企业 领袖 的 关注 。 

招聘 不 再 像 “ 蒙 着 眼睛 给 驴 贴 尾巴 ”游戏 

张贴 公告 然后 祈祷 结果 的 时 代 已 经 结束 ， 招 聘 人 员 现 在 可 以 从 招聘 板块 上 收集 大 量 可 
操作 的 数据 。 可 以 从 招聘 信息 中 收集 客观 信息 ， 来 帮助 招聘 人 员 熟 练 地 使 用 这 种 热门 招聘 
媒介 ， 并 制作 出 最 佳 的 招聘 信息 。 然 后 ， 找 到 最 合理 高 效 的 将 就 业 安排 和 展示 信息 结合 i 
来 的 方式 。 

接 下 来 ， 招 聘 人 员 可 以 通过 得 到 的 数据 来 定位 具体 的 人 才 来 源 ， 尽 可 能 地 扩大 每 个 职 
位 的 人 才 库 。 以 前 ， 人 才 目 标 来 源 是 一 个 有 风险 的 业务 。 以 一 种 有 利 可 图 的 方式 分 配 开支 ， 
可 能 意味 着 在 没有 投资 回报 率 的 情况 下 消耗 预算 。 让 你 看 起 来 像 游 戏 中 的 “ 驴 ”。 

现在 ， 在 招聘 过 程 中 应 用 大 数据 会 帮助 招聘 人 员 创 建 自由 流动 的 人 才 管 道 ， 并 提高 效 
率 。 职 位 公告 板 不 再 是 令 人 泪 丧 又 昂贵 的 “ 蒙 着 眼睛 给 驴 贴 尾巴 ”的 游戏 。 招 聘 人 员 现 在 
还 可 以 使 用 智能 化 的 作业 平台 。 这 一 切 都 是 为 了 更 加 有 效 地 分 配 您 的 招聘 预算 。 

招聘 中 的 魔术 8 球 

到 最 近 为 止 ， 招 聘 人 员 一 直 沉 迷 于 招聘 指标 的 一 小 部 分 。 现 在 招聘 人 员 不 得 不 停 下 来 
改变 过 去 的 想法 来 进行 预测 分 析 。 在 您 已 经 拥有 的 招聘 数据 中 就 可 以 看 到 预测 分 析 ， 它 们 
只 是 这 些 数据 点 的 连接 ， 可 以 帮助 招聘 人 员 询 问 并 解答 问题 。 

在 洛杉矶 聘请 IT 专业 人 员 需 要 几 天 的 时 间 ? 

在 哪 一 天 ，IT 专业 人 士 在 什么 时 候 申 请 工作 ? 

KARIL IT 专业 人 士 最 常 应 聘 哪 些 职 位 ? 

KARKI IT 专业 人 士 , 在 传统 互联 网 (不 是 移动 互联 网 ) 网 站 上 应 聘 的 放弃 率 是 
多 少 ? 

本 人 正在 做 的 研究 可 以 在 他 们 需要 时 帮助 招聘 人 员 瞄 准 、 吸 引 和 签署 他 们 需要 的 人 
才 。 大 数据 连接 着 给 招聘 人 员 提 供 答案 的 数据 点 。 大 数据 能 够 揭示 我 们 在 表面 上 看 不 到 的 
趋势 。 这 种 知识 使 招聘 人 员 具 有 自信 的 敏捷 性 ， 从 而 使 招聘 人 员 更 准确 地 调整 自己 的 方法 
和 预算 ， 从 而 实现 最 佳 状态 下 的 招聘 营销 工作 。 

大 数据 发 展 已 被 证 明 是 有 效 的 ， 并 将 进一步 延续 下 去 。 德 勤 公 司 最 近 的 研究 显示 ， 








大 数据 专业 英语 教程 


57% 的 人 力 资源 部 门 增加 了 他 们 对 分 析 的 支出 。 这 是 采用 分 析 工 具 ， 将 以 前 无 











的 数据 变 








为 可 操作 的 和 客观 的 信息 的 直接 结果 ， 这 会 让 现在 招聘 人 员 拥 有 准确 的 数据 来 换 掉 以 前 所 





有 假设 。 


如 前 所 述 ， 招 聘 人 员 不 再 是 分 析 性 数学 的 学 习 者 ， 而 是 分 析 工 具 的 使 用 





FH 





者 。 分 析 工 具 








可 以 将 数据 转化 为 有 用 的 信息 ， 从 而 实现 这 种 高 度 针 对 性 的 招聘 营销 。 


Text B 


Big Data — the collection of larger than average datasets that require 
unconventional storage, processing, and analysis methods, has 
revolutionized nearly every field of business, from marketing to 
manufacturing. Big Data can provide those firms that develop the 
infrastructure to analyze and act on the patterns and insights 
contained in these datasets, with a source of competitive advantage 
in any industry. This infrastructure includes the technology to 
aggregate, process, and analyze various datasets, and the personnel 
to perform these operations, which marketing research firm Gartner 
estimates will be a $232 billion dollar industry by 2016. As more 
and more firms invest in Big Data infrastructure and integrate it into 
their existing internal operations, such personnel are in high 
demand these days. Firms often find them with the help of Big 
Data-driven Indeed, Big Data has 
transformed the world of recruiting; and it may help you find the 


recruiting procedures. 


talent you need, in each area of your business. 

Big Data, or people analytics, as it is known when applied to 
recruiting, provides recruiters with more data to analyze. Social 
media networks have become the first stop for many recruiters after 
receipt of a resume. However, people analytics encompasses more 
than just social media data mining. Indeed, it encompasses even 
more than just back-end software or personnel. People analytics is 
also an orientation — an attempt to create a complete picture of a 
candidate long before they step foot in an office for an interview. 
An applicant's entire online presence, their use of a firm's 
recruiting database, their customer or non-customer status, their 
political affiliations, their smoking preferences, and other 
characteristics can all taken into consideration in this era of Big 
Data. 


Benefits of Recruiting Using Big Data 





New Words and Expressions 
revolutionize/ rev.o'lu: fon.aiz/ 
v. 

使 发 生 革命 性 剧变 

encompass/m kam.pos/ v. 


包含 ; 包括 
aggregate/'ceg.r1.got/ v. 
使 聚集 


affiliation/o fil.i'er.f[on/ n. 
联系 
Preference/ pref ar.sns/ n. 


偏爱 ; 爱好 ; 喜爱 
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The people analytics approach has tremendous advantages for | New Words and Expressions 
recruiters. The proliferation of available information about | proliferation/pro.lif.or'er.[2n/ 


candidates has made it possible for recruiters and human resources | n 


$ l 扩散 
paie to match an employee's professional and personal fit fall within 
with their firm more closely to the firm's opening and corporate 应 列 入 … 范 围 内 
culture respectively. People analytics’ tools and techniques allow | attrition/o'trif.on/ n. 
: E 消耗 ， 损 耗 
firms to develop a much more complete puto of a candidate — far shortfall/ [»:t.£»:l/ n. 
beyond a one-page cover letter and accompanying resume. 不 足 之 数 ; 缺口 ; 差额 


People analytics allows firms to move away from hiring based 
on subjective factors that may have very little to do with an 
employee's chances of success at that particular firm. The Big Data 
approach involves first determining what existing factors lead to 
employee success and retention, and hiring candidates who fall 
within those parameters. This approach makes it easier for 
recruiters and managers to justify new hires as well. And it works. 
Xerox recently used algorithm-driven recruiting techniques to 
reduce the attrition in its call centers by 20%. 

Further, analyses of one's internal HR database, its strategic 
sales plan, and its accounts receivable, can yield insights about 
where a firm needs to hire to stay on top of existing orders. This 
insight allows firms to recruit proactively, rather than when they 
face a talent shortfall. Hiring proactively allows firms to spend the 
time necessary to select the right candidate, and avoid paying a 
premium for talent in moments of extreme organizational need. It 
also allows firms to develop strategic recruitment plans that 
incorporate a firm's broader hiring goals, such as building a diverse 
workforce. 

People analytics can reduce your cost per hire, and your 
average time needed to fill open positions by making the recruiting 
process more efficient. Lastly, hiring using people analytics can 
align your compensation packages more closely with real market 
averages, by conducting analyses of publicly available salary 
information. 

Recruiting Using Big Data 

Big Data has given rise to a number of recruiting techniques 
designed to make recruiting efforts more precise and accurate. 
While these techniques predate the rise of Big Data, the explosion 


of available information has led to the development of 
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algorithm-driven recruiting software solutions (as well as firms that 
specialize in algorithm-driven recruiting); and helped refine the 
tools and techniques used specifically for recruiting. These tools 
and techniques include data mining, keyword filtering, and testing. 

e Data mining 

Data mining is a technique used by firms to aggregate data for 
a variety of different business purposes, including recruiting. Data 
mining can be used to analyze the internal data created by 
high-performing and/or longstanding candidates to search for 
insights into their performance and/or longevity. Data-driven firms 
like IBM, along with standalone data analysis firms like the 
California-based Cataphora, specialize in such statistical analyses, 
which can be used for internal recruiting and/or retention. By 
analyzing from where successful candidates have been hired can 
simplify the recruiting process as well. For example, a firm whose 
internal analyses have revealed that 49% of their top performers had 
their initial contact with a recruiter from Viadeo, may lead the firm 
to reduce advertising on LinkedIn, and instead ramp up recruitment 
efforts on the French social networking site. 

Recruiters and human resources professional can also combine 
data mining with predictive analytics — the use of statistical 
methods and techniques to forecast the probability of a likelihood 
occurrence using historical data, to generate predictions about a 
candidate’s likely tenure with the firm should they be hired. These 
insights can also be used to provide parameters for the recruiting of 
external candidates. 

Data mining, or as some recruiters call it “talent mining” can 
be done manually or automatically online. Individual recruiters 
and/or software can search online resume databases (internal or 
external), professional social network profiles, or other websites of 
interest for personnel who might be a match for an opening. 

Social networks, in particular, capture significant information 
about an individual. Recruiters can determine not only whether a 
candidate might be a good fit for the culture of the firm, but also 
whether they might be successful there, by assessing this 
information against internal profiles of high performing candidates. 
For example, a firm's highest performers may spend a small 
amount of time on a single social network. A candidate who spends 


considerable time on multiple social networks might raise some 








New Words and Expressions 


keyword filtering 
关键 词 过 滤 
longevity/lon d3ev.o.ti/ n. 
长 期 供职 
standalone/'stændə lson/ adj. 


单独 的 ， 独 立 的 
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flags. Alternatively, a social network might indicate that the | New Words and Expressions 
candidate is engaged in activities that might impair their | parameter/po'reemito(r)/ n. 


productivity, such as excessive drinking or high-risk hobbies, such 参数 ; 限制 因素 ; 决定 因素 
screen out 


as extreme sports. These insights can be helpful to the diligent mem 


recruiter. 

e Keyword filtering 

Using desired skills and other characteristics as keywords, 
recruiters can run searches in popular search engines, on 
professional and non-professional search engines, in public or 
private online communities, and on other online properties. This 
can yield promising leads, who recruiters can contact for an 
informational or formal interview. 

Keyword filtering is also helpful when screening out 
applicants who have applied for a position through a web-based 
talent management application (either proprietary or from a 
third-party recruiter). Recruiting software automatically scans 
submitted resumes and cover letters for specific keywords, rejecting 
those without them, and returning to recruiters only the candidates 
who fit the job description on paper. 

e Testing 

More and more, testing is used in the hiring process. Usually, 
pre-screened applicants are invited to take a skills test, a personality 
test, or both. Skills tests are used to authenticate the skills listed in 
one’s job application, but also can be used to test those not listed, 
such as soft skills. Personality tests are used to assess a candidate’s 
fit with the firm’s culture, as well as soft skills. Personality tests 
have been around for a long time, but the combination of 
computer-assisted testing, and data-driven approached to 
psychology, make these tests much more sophisticated and precise. 

Increasingly, both skills and personality tests are assessed 
against internal analyses of high performing employees. For 
example, an advertising firm may find success with candidates who 
work well in a team and possess a high degree of digital fluency, 
tegardless of the job opening. They may in turn offer measure all 
candidates for an opening against skills and personality tests they 
mandate during the hiring process. 

It is not uncommon for candidates for senior positions in all 
industries (and even some junior level positions in industries such 


as finance) to be given one or multiple, skills tests, and a 








e 





personality test, during multiple interview rounds. These tests | New Words and Expressions 
provide hiring managers with more data points, alongside the job | precise/prr'sars/ adj. 
application, the interview(s), online data, and other publicly 精确 的 


available information, against which to measure candidates. 





Note: 
The text is adapted from the website: 
https://www.cleverism.com/best-uses-big-data-recruiting/. 


参考 译文 


大 数据 一 一 大 规模 数据 的 收集 需要 非常 规 的 存储 、 处 理 和 分 析 方 法 ， 几 乎 从 市 场 营销 
到 制造 业 的 各 个 领域 都 发 生 了 革命 。 大 数据 可 以 为 那些 开发 基础 设施 的 公司 提供 分 析 。 大 
数据 分 析 的 结果 可 以 指导 公司 决策 ， 同 时 也 是 任何 行业 竞争 优势 的 来 源 。 该 基础 设施 包括 
聚合 、 处 理 和 分 析 各 种 数据 集 的 技术 ， 以 及 执行 这 些 操作 的 人 员 ， 市 场 研究 公司 Gartner 
估计 到 2016 年 市 场 规模 将 达到 2320 亿美 元 。 随 着 越 来 越 多 的 企业 投资 大 数据 基础 设施 ， 
并 将 其 整合 到 现 有 的 内 部 操作 中 ， 大 数据 从 业者 的 需求 日 益 高 涨 。 公 司 经 常 在 大 数据 驱动 
招聘 程序 的 帮助 下 找到 他 们 。 事 实 上 ， 大 数据 改变 了 招聘 的 世界 ， 并 且 可 以 帮助 您 在 您 的 
业务 的 每 个 领域 找到 所 需 的 人 才 。 

应 用 于 招聘 时 ， 大 数据 或 人 员 分 析 为 招聘 人 员 提 供 了 更 多 的 数据 进行 分 析 。 收 到 简历 
后 ， 社 交 媒 体 网 络 已 经 成 为 许多 招聘 人 员 的 第 一 站 。 然 而 ， 人 员 分 析 不 仅仅 涉及 社交 媒体 
的 数据 挖掘 ， 事 实 上 ， 它 不 仅仅 包括 后 端 软件 或 人 员 。 人 员 分 析 也 是 一 个 发 展 方向 一 一 在 
他 们 踏 上 办 公 室 进行 面试 之 前 ， 招 聘 人 员 会 试图 创建 候选 人 的 完整 画像 。 申 请 人 的 整个 在 
线 状态 ,他 们 对 公司 的 招聘 数据 库 的 使 用 、 他 们 处 于 客户 或 非 客 户 状态 、 他 们 的 政治 立场 、 
吸烟 偏好 和 其 他 特征 ， 都 是 在 这 个 大 数据 时 代 的 考虑 因素 。 

使 用 大 数据 招聘 的 好 处 

人 员 分 析 方 法 对 招聘 人 员 具 有 巨大 的 优势 。 有 关 候选 人 的 现 有 信息 的 激增 使 得 招聘 人 
员 和 人 力 资源 专业 人 员 尽 可 能 将 员工 的 专业 和 个 人 素质 与 公司 的 开放 和 企业 文化 匹配 起 
来 。 人 员 分 析 工 具 和 技术 允许 公司 开发 更 完整 的 候选 人 资料 一 一 远 远 超出 了 一 页 的 求职 信 
和 附带 的 简历 。 

人 员 分 析 使 企业 在 招聘 时 摆脱 主观 因素 ， 这 些 因素 可 能 与 员工 在 该 公司 取得 成 功 的 机 
会 无 关 。 大 数据 方法 首先 确定 现 有 员工 成 功 的 因素 参数 ， 并 招聘 符合 这 些 参 数 的 候选 人 。 
这 种 方法 使 招聘 人 员 和 管理 人 员 更 容易 找到 合适 的 员工 。 这 的 确 奏效 了 。 施 乐 公司 最 近 采 
用 了 算法 驱动 的 招聘 技术 ， 将 呼叫 中 心 的 员工 人 数 减少 20% 。 

此 外 ， 对 内 部 人 力 资源 数据 库 、 战 略 销售 计划 及 其 应 收 账 款 的 分 析 可 以 让 我 们 了 解 企 
业 需 要 聘用 哪些 人 ， 以 保持 现 有 订单 的 最 高 水 平 。 这 种 洞察 力 使 企业 能 够 主动 招聘 ， 而 避 
免 陷 入 人 才 短 缺 。 招 聘 的 主动 性 允许 公司 有 时 间 选 择 正确 的 候选 人 ， 并 避免 在 公司 急需 人 
才 时 支付 额外 的 费用 。 它 还 允许 公司 制定 战略 招聘 计划 ， 纳 入 公司 更 广泛 的 招聘 目标 ， 例 
如 ， 建 立 多 样 化 的 员工 队伍 。 
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人 员 分 析 可 以 降低 招聘 成 本 ， 通 过 更 有 效率 的 招聘 流程 节省 招聘 时 间 。 最 后 ， 通 过 对 
公开 的 薪资 信息 进行 分 析 ， 雇 用 人 员 分 析 可 以 使 薪酬 方案 与 实际 市 场 平均 水 平 更 吻合 。 

使 用 大 数据 进行 招聘 

大 数据 引发 了 一 些 招聘 技巧 ， 旨 在 使 招聘 工作 更 加 严格 和 精确 。 虽 然 这 些 技 术 早 于 大 
数据 的 出 现 ， 但 大 量 的 可 用 信息 带 来 了 算法 驱动 的 招聘 软件 解决 方案 (以 及 专门 从 事 算法 
驱动 型 招聘 的 公司 〉 的 发 展 ， 并 帮助 改进 了 专门 用 于 招聘 的 工具 和 技术 。 这 些 工具 和 技术 
包括 数据 挖 据 、 关 键 字 过 滤 和 测试 。 

。 数据 挖掘 

数据 挖掘 是 企业 用 于 为 各 种 不 同业 务 目 的 (包括 招聘 ) 汇总 数据 的 技术 。 数 据 挖掘 可 
用 于 分 析 由 高 绩效 和 /或 长 期 候选 人 创建 的 内 部 数据 ， 以 考察 他 们 的 长 期 工作 表现 。 数据 驱 
动 的 公司 (如 IJBM)， 以 及 独立 的 数据 分 析 公 司 〈 如 加 州 的 Cataphora)， 专 门 从 事 这 种 统计 
分 析 ， 可 用 于 内 部 招聘 。 通 过 分 析 候选 人 获得 成 功 的 方式 ， 可 以 简化 招聘 过 程 。 例 如 ， 一 
家 公司 的 内 部 分 析 显示 , 49% 的 最 佳 表现 者 都 是 通过 与 Viadeo 的 招聘 人 员 签 订 第 一 份 合同 
招聘 入 职 ， 这 可 能 会 导致 该 公司 减少 LinkedIn 上 的 广告 业务 ， 取 而 代 之 的 是 在 法 国 社交 网 
站 上 加 大 招聘 力度 。 

招聘 人 员 和 人 力 资源 专业 人 员 还 可 以 将 数据 挖掘 与 预测 分 析 结 合 使 用 一 一 在 研究 历 
史 数 据 后 ， 采 用 统计 方法 和 技术 对 可 能 性 发 生 概 率 进行 预测 ， 以 此 公司 可 以 对 员工 的 未 来 
合同 期 进行 推测 ， 并 决定 是 否 继续 雇用 他 们 。 同 时 也 可 以 用 于 对 外 部 人 员 的 招聘 。 

数据 挖掘 ， 或 者 一 些 招聘 人 员 称 之 为 “人 才 挖 气 ” 可 以 手动 或 自动 在 线 完成 。 个 人 
招聘 人 员 和 /或 软件 可 以 搜索 在 线 简历 数据 库 〈 内 部 或 外 部 )、 专 业 社交 网 络 配置 文件 或 与 
空缺 职位 相 匹配 的 人 可 能 感 兴趣 的 网 站 。 

特别 是 社会 网 络 可 以 抓 取 有 关 个 人 的 重要 信息 。 招 聘 人 员 不 仅 可 以 确定 候选 人 是 否 适 
合 企业 的 文化 ， 而 且 还 可 以 通过 高 绩效 候选 人 的 内 部 资料 评估 他 们 是 否 可 能 在 那里 取得 成 
功 。 例 如 ， 一 家 公司 的 表现 最 好 的 人 可 能 会 花费 少量 的 时 间 在 一 个 社交 网 络 上 。 在 多 个 社 
交 网 络 上 花费 相当 长 时 间 的 候选 人 可 能 会 更 被 留意 。 或 者 ， 社 交 网 络 可 能 表明 候选 人 从 事 
可 能 损害 其 生产 力 的 活动 (如 过 度 饮酒 ) 或 高 风险 的 爱好 (如 极限 运动 )。 这 些 都 可 以 为 勤 
奋 的 招聘 人 员 提 供 参 考 。 

。 关键 字 过 滤 

使 用 期 望 的 技能 和 其 他 特征 作为 关键 字 ， 招 聘 人 员 可 以 在 流行 的 搜索 引擎 、 专 业 和 非 
专业 搜索 引擎 、 公 共 或 私人 在 线 社区 以 及 其 他 在 线 资源 中 进行 搜索 。 这 可 以 找到 有 希望 胜 
任 的 人 员 ， 招 聘 人 员 可 以 与 其 联系 进行 正式 面试 或 非 正式 面谈 。 

通过 基于 网 络 的 人 才 管 理应 用 程序 ( 专 有 人 员 或 第 三 方 招聘 人 员 ) 筛选 申请 职位 的 申 
请 人 ， 关 键 字 筛选 也 是 有 帮助 的 。 招 聘 软 件 会 自动 扫描 提交 的 简历 和 封面 信件 以 获得 特定 
的 关键 字 ， 拒 绝 没 有 这 些 材料 的 人 员 ， 并 且 仅 向 符合 工作 描述 的 候选 人 提供 面试 机 会 。 

。 测试 

招聘 采用 越 来 越 多 样 的 测试 。 通 常 ， 预 先 筛 选 的 申请 人 被 邀请 参加 技能 测试 、 个 性 测 
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试 或 两 者 都 参加 。 技能 测试 用 于 认证 工作 申请 中 列 出 的 技能 , 也 可 用 于 测试 未 列 出 的 技能 ， 
如 软 技能 。 个 性 测试 用 于 评估 候选 人 与 公司 文化 的 合适 性 以 及 软 技 能 。 人 格 测试 已 经 存在 
了 很 长 时 间 ， 但 计算 机 辅助 测试 与 数据 驱动 相 结合 的 心理 测试 使 得 这 些 测试 更 为 复杂 和 
精确 。 

越 来 越 多 地 针对 高 绩效 员工 的 内 部 分 析 对 技能 和 人 格 测试 进行 评估 。 例 如 ， 一 家 广告 
公司 可 能 会 找到 成 功 的 候选 人 ， 他 们 在 团队 中 工作 良好 ， 拥 有 高 度 的 数字 素养 ， 不 管 职位 
是 否 空缺 。 反 过 来 ， 他 们 可 以 提供 所 有 候选 人 的 入 职 培训 ， 在 招聘 过 程 中 衡量 他 们 所 要 求 
的 技能 和 个 性 测试 。 

所 有 行业 的 高 级 职位 〈 甚 至 金融 行业 的 初级 职位 ) 的 候选 人 都 会 获得 一 次 或 多 次 技能 
考试 和 个 性 考试 ， 这 是 常见 的 现象 。 除 了 工作 申请 、 面 试 、 在 线 数 据 和 其 他 公开 信息 ， 这 
些 额外 测试 为 招聘 经 理 提供 了 更 多 的 数据 采样 点 ， 用 于 评价 候选 人 。 
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Text A 


Big Data in Gaming Industry Improves Gaming Experience 
EA games has more than two billion video game players in the 
world, who generate approximately 50 terabytes of data each day. 
The gaming industry does $ 20 billion in annual revenue in America 
alone of which 2 billion in sub-category social games. In the USA, 
the gaming industry is bigger than the movie industry (with an 
annual amount of $ 8 billion spent on movie tickets). The world of 
gaming is big, growing rapidly and taking full advantage of the big 
data technologies. Gaming companies can drive customer 
engagement, make more money on advertising and optimize the 
gaming experience among others with utilizing the big data in 
gaming industry. 
An Improved Customer Experience 

As with any organization, also the 360-degrees customer view 
is important for the gaming industry. Fortunately, gamers leave a 
massive data trail when they play a game. Whether it is an online 
social game connected via Facebook, a game played on an offline 
PlayStation or a multi-player game via the Xbox, a lot of data is 
created in different formats when gamers start playing. They create 
massive data streams about everything they do within a game. How 
they interact, how long they play, when they play, with whom, how 
much they spend on virtual products, with whom they chat etc. If 


the gaming profile is linked to social networks or a gamer is asked 





New Words and Expressions 
terabyte/' ter.o.bart/ n. 

A3 (TB) 
profile/'proo.fail/ n. 

简介 
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to enter demographical data the information can be enriched with 
what the gamer likes in real life and gaming companies can adapt 
the game in real life to the profile of the gamer. 

Based on all that data targeted in-game products can be offered 
that have a high conversion rate. Just like on e-commerce websites 
were products are recommended based upon what other customers 
bought, this can also be done within the gaming environment. 
Recommending certain features that other players also bought that 
can be bought with a product or recommending certain virtual 
products based on the level the gamer is in. This can result in an 
increased up-sell or cross-sell ratio and additional revenue. 

Engagement can also be increased if analytics show that a 
player will abandon the game if the first levels are too difficult or if 
later levels are too easy. Data can be used to find bottlenecks within 
the game, where many players fail the tasks at hand. Or it can be 
used to find the areas that are too easy and need to be improved. 
Analyzing millions of player data gives insight into which elements 
of the game are most popular. It can show what elements are 
unpopular and requires action to improve the game. Constant 
engagement is vital and with the right tools the right reward can be 
provided at the right moment for the right person within the game to 
keep a player engaged. 

Big data in gaming industry technologies also help to optimize 
in-game performance and end-user experience. When for example 
the databases and servers of the games have to cope with a steep 
increase in online players, it is important to have sufficient capacity. 
With big data it is possible to predict the peaks in demand to 
anticipate on the required capacity and scale accordingly. This will 
improve the gaming experience (who likes a slow game) and thus 
the end-user experience. 

To Deliver a Tailored Gaming Experience 

Games that are developed for different consoles or devices 
(tablets vs smartphone or Xbox vs PlayStation) can result in a 
different playing experience. When all data is analyzed, it can 
provide insights in how players play the game on different devices 
and whether there is a difference to be solved. 

Big data also enable to show tailored individual in-game 


advertising corresponding with the needs and wished of the player. 
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e-commerce/ i; kom.3:s/ n. 
电子 商务 

console/kon saol/ n. 
RAS 

cross-sell 
交叉 销售 

tailored/ ter.lod/ adj. 
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With all the big data in gaming industry, created by gamers, a | New Words and Expressions 


360-degree in-game profile can be created that, when combined | ample/ empel adj. 


足够 的 ， 充 足 的 


with open and social data from the gamer, can give insights in the 
likes and dislikes of that gamer. This information can be used to 
show only those advertising within the game that matches the 
profile of the gamer resulting in a higher stickiness factor of the 
advertising and more value for the advertiser and subsequently 
more revenue for the game developer. 

There are ample opportunities for game developers to improve 
the gaming experience with big data, drive more revenue and 
improve the game faster and better Game developers should 
therefore not miss out on big data, because the benefits for the 


developer as well as the player are too big to ignore when looking 








at total big data in gaming industry. 
Note: 
The text is adapted from the website: 
http://playbook.amanet.org/big-data-in-gaming-industry- improves-gaming-experience/. 


Comprehension 


Blank filling 

1. The world of gaming is big, growing rapidly and taking full advantage of the big data 
technologies. Gaming companies can drive customer . make more money on 

and optimize the gaming among others with utilizing the big 

data in gaming industry. 

2. A lot of data is created in different formats when gamers start playing. They create 
massive about everything they do within a game. 

3. If the gaming profile is linked to social or a gamer is asked to enter 
data the information can be enriched with what the gamer likes in life and 


gaming companies can adapt the game in real life to the profile of the gamer. 


4. Analyzing millions of gives insight into which elements of the game are 
most popular. It can show what elements are unpopular and requires actionto — — the 
game. 

5. Big data in gaming industry technologies also help to in-game and 
end-user 

6. When all is analyzed, it can provide insights in how players play the game on 


different and whether there is a difference to be solved. 


[X 大 数据 专业 英语 教程 


7. With all the big data in gaming industry, created by gamers a 360-degree can be 
created that, when combined with data from the gamer, can give insights in 
the of that gamer. 

8. Game developers should therefore not miss out on , because the for 
the developer as well as the player are too big to when looking at total big data 
in gaming industry. 

Content Questions 

1. What does the game companies use the big data to do? 

2. What kind of players’ information can the game company get? 

3. What is the effect of big data in the game industry? 

4. How does the game company get the player’s favorite? Why? 

5. What is necessary to ensure that players participate in? 

6. What is data for in gaming industry? 


Answers 


Blank filling 

1. engagement; advertising: experience; 

2. data streams 

3. networks; demographical; real 

4. player data; improve 

5. optimize: performance; experience 

6. data; devices 

7. in-game profile; open and social: likes and dislikes 

8. big data; benefits: ignore 

Content Questions 

1. Gaming companies can drive customer engagement, make more money on advertising 
and optimize the gaming experience among others with utilizing the big data in gaming 
industry. 

2. How they interact, how long they play, when they play, with whom, how much they 
spend on virtual products, with whom they chat etc. 

3. An Improved Customer Experience, To Deliver a Tailored Gaming Experience. 

4. Analyzing millions of player data gives insight into which elements of the game are most 
popular. Because it can show what elements are unpopular and requires action to improve 
the game. 

5. Constant engagement is vital and with the right tools the right reward can be provided at 
the right moment for the right person within the game to keep a player engaged. 
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6. It can provide insights in how players play the game on different devices and whether 


there is a difference to be solved. 
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游戏 行业 的 大 数据 提高 了 游戏 体验 

艺 电 公司 CEA) 的 游戏 在 全 球 有 超过 20 亿 的 视频 游戏 玩家 ， 这 些 玩 家 每 天 生成 大 约 
50 太 字 节 (TB) 的 数据 。 游 戏 行业 在 美国 的 年 收入 为 200 亿美 元 ， 其 子 类 别 社交 游戏 年 
收入 达到 20 亿美 元 。 美 国 的 游戏 行业 比 电影 行业 繁荣 〈 美 国人 每 年 花费 约 80 亿美 元 买 电 
影 票 )。 游 戏 世界 规模 庞大 、 发 展 迅 速 ， 同 时 充分 利用 大 数据 技术 。 游 戏 公 司 通过 利用 游戏 
行业 的 大 数据 推动 客户 参与 ， 在 广告 上 赚 更 多 的 钱 并 优化 游戏 体验 。 

改善 客户 体验 

与 大 多 数组 织 一 样 ，360 度 客户 视角 对 于 游戏 行业 也 是 非常 重要 的 。 幸 运 的 是 ， 玩 家 
进行 游戏 时 会 留 下 大 量 的 数据 痕迹 。 无论 是 通过 Facebook 连接 的 在 线 社交 游戏 , 还 是 在 离 
线 的 PlayStation 上 玩 的 游戏 或 使 用 Xbox 的 多 玩家 游戏 ， 玩 家 开始 游戏 时 都 会 以 不 同 的 格 
式 创 建 大 量 数据 。 游 戏 玩家 们 制造 了 关于 他 们 在 游戏 中 所 做 一 切 的 大 量 数据 流 。 他 们 的 交 
互 方式 、 玩 了 多 长 时 间 、 什 么 时 间 玩 的 、 和 谁 玩 、 在 虚拟 产品 上 花费 了 多 少 钱 以 及 他 们 与 
谁 聊 天 等 等 。 如 果 游 戏 资料 与 社交 网 络 相 关联 或 者 要 求 玩家 输入 统计 资料 ， 信 息 因为 玩家 
在 现实 生活 中 喜欢 的 内 容 得 到 丰富 ， 并 且 游 戏 公司 可 以 根据 玩家 现实 生活 情况 编写 游戏 。 

基于 所 有 这 些 数据 ， 游 戏 可 以 有 针对 性 地 提供 高 转换 率 的 产品 。 就 像 在 电子 商务 网 站 
上 一 样 ， 商 品 是 根据 其 他 顾客 购买 的 产品 推荐 的 ， 这 也 可 以 在 游戏 环境 中 完成 。 推 荐 其 他 
玩家 也 购买 的 某 些 功能 ， 或 根据 玩家 所 在 的 级 别 推荐 某 些 虚拟 产品 ， 这 可 能 会 使 产品 的 畅 
销 率 或 交叉 销售 率 以 及 额外 收入 得 以 增长 。 

如 果 一 个 游戏 角色 的 初始 等 级 太 难 ， 或 角色 在 高 等 级 时 游戏 内 容 太 简单 ， 就 会 使 玩家 
放弃 游戏 ， 按 照 此 分 析 进 行 调 整 ， 就 可 以 增加 玩家 的 参与 度 。 可 以 使 用 数据 来 查找 游戏 中 
的 瓶颈 : 例如 许多 玩家 无 法 完成 的 任务 ， 或 者 玩家 很 容易 找到 游戏 中 某 个 区 域 ， 则 这 些 情 
况 就 需要 改进 。 分 析 数 百 万 玩家 的 数据 可 以 深入 了 解 游戏 的 哪些 元 素 最 受 欢 迎 ， 也 可 以 显 
示 什 么 元 素 不 受 欢迎 ， 需 要 采取 行动 来 改善 游戏 。 持 续 地 参与 至 关 重 要 ,通过 正确 的 工具 ， 
可 以 在 适当 的 时 机 为 游戏 中 合适 的 人 员 提 供 合理 的 奖励 来 保证 玩家 的 参与 。 

游戏 行业 中 的 大 数据 技术 也 有 助 于 优化 游戏 内 部 的 性 能 和 最 终 用 户 体验 。 例 如 ， 如 果 
游戏 的 数据 库 和 服务 器 必须 应 付 在 线 玩 家 的 急剧 增长 ， 则 它们 必须 具有 足够 的 存储 空间 。 
通过 大 数据 ， 可 以 预测 需求 峰值 ， 从 而 预期 所 需 的 存储 空间 和 性 能 规模 。 这 将 改善 游戏 体 
验 〈 谁 会 喜欢 慢 游戏 )， 从 而 改善 最 终 用 户 体 验 。 

提供 量 身 定制 的 游戏 体验 

为 不 同 的 游戏 机 或 设备 开发 的 游戏 (平板 电脑 、 智 能 手机 、Xbox 和 PlayStation? 可 以 
产生 不 同 的 游戏 体验 。 采 用 大 数据 平台 时 ， 可 以 得 到 玩家 们 在 不 同 设备 上 玩 游戏 的 分 析 结 
果 ， 以 及 是 否 有 待 解 决 的 差异 。 
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大 数据 还 能 够 显示 符合 玩家 需求 和 愿望 的 量 身 定制 的 个 人 游戏 内 置 广告 。 通 过 游戏 玩 
家 在 游戏 行业 中 创建 的 所 有 大 数据 可 以 创建 出 一 个 360 度 的 游戏 内 容 资料 一 一 当 与 游戏 玩 
家 的 开放 的 社交 数据 相 结合 时 ， 可 以 深入 了 解 玩 家 的 喜好 。 信 息 可 用 于 只 显示 与 游戏 者 的 
配置 文件 相 匹配 的 广告 内 容 ， 使 得 广告 的 粘度 更 高 ， 给 广告 商 更 高 的 价值 ， 随 后 游戏 开发 


商 的 收入 也 将 增加 。 


游戏 开发 人 员 有 充足 的 机 会 通过 大 数据 改善 游戏 体验 、 带 来 更 多 的 收入 并 提高 游戏 的 
速度 和 质量 。 纵 观 大 数据 在 游戏 业 的 使 用 ， 开 发 者 以 及 玩家 都 从 中 获 益 。 因 此 ， 对 游戏 开 


发 人 员 而 言 ， 大 数据 不 容错 过 。 
Text B 


Back in 2013, the Staples Center sold out in under an hour, setting 
what must be some unofficial record for ticket sales. However, 
people weren't buying tickets to see the Lakers or the Kings play. 
The center was actually hosting the League of Legends 
Championship. For those of you who don't know, League of 
Legends is a popular, free-to-play, fantasy combat game. So yes, 
you heard correctly. Over 10,000 paid to watch people play video 
games. 

The electronic gaming industry has come a long way since the 
days of Pong and Pac-Man. It's now valued at more than 90 billion 
dollars. And it isn't just the major companies like Sony, Microsoft 
or Electronic Arts (EA) who are contributing to the industry. There 
are thousands of smaller developers and new designers creating 
games for newer platforms, like social media sites or mobile 
devices. 

Because there's so much money on the line, and a saturated 
market of players and developers, there's an extreme amount of 
competition. Gamers only have so much time, and so much money, 
meaning developers are constantly fighting to get their games into 
the hands of these players. Every minute and dollar spend with one 
developer takes the same away from someone else. Not to mention, 
gamers expect more than ever before. Graphics and gameplay are 
reaching new levels. The limits are constantly being pushed, and 
gamers won't settle for mediocre. Many big games pushed out on 
major systems cost a small fortune, meaning if they fail the 
company behind it may be toast. And now, with the prevalence of 


social media and online reviews, all it takes is a few influential 











New Words and Expressions 
saturated/'setf.or.er.tid/ adj. 


饱和 的 
Prevalence/ prev.al.ans/ n. 


流行 
mediocre/ mi:di' ooko(r)/ adj 
普通 的 ; 中 等 的 





Chapter8 Big Data in Gaming Industries m 
95 





gamers to give a poor rating, and a game can fall flat within only | New Words and Expressions 
whim/win/ n. 


突然 的 念头 ， 冲 动 


connectivity/ kon.ek ttv.o.ti/ 


weeks of its release. 
So obviously, there's a lot on the line. Developers don't want 


to be gambling hundreds of millions of dollars on a whim. That's 


n. 


连接 性 能 


exactly why more and more companies are relying on gamer data to 
increase the chances of developing a popular game that'll sell. In 
this sense, gaming companies may want to take a page out of 
Netflix's book. Netflix collects massive amounts of information on 
its customers and viewing habits. That way, when it releases a 
series, it’s already pretty confident already that it’s going to do well, 
like with *House of Cards." Almost all of today's entertainment 
consoles, or even mobile gaming platforms, come standard with 
internet connectivity. This isn't just to allow gamers to play against 
other gamers from all over the world. Online gaming certainly has a 
dual-purpose. Creating online accounts allows developers to learn 
the types of games people are playing, and how they're being 
played. With this information they can learn the trends and 
customize games or gameplay to fit with demands, and vastly 
improve the chances of creating a successful game. 

However, big data isn't just booming for the big gaming 
companies. It isn't also just for creating the right kind of games 
either. One of the biggest challenges aside from making a games, is 
learning how to monetize them. This is especially true for games on 
social media or mobile devices, like smartphones. There are many 
different ways to monetize games, like merchandising or offering 
pay-to-play, and it's important to determine the right method for 
your audience. 

Developers looking to stay on top, and remain aware of gamer 
demands and trends, will need to invest in the right tools. Analyzing 
millions of users and hundreds of metrics across multiple titles and 
platforms is obviously problematic. Most large companies, 
especially within the gaming industry, aren't looking to have big 
data gaming analysis chew up all of their time. They're in the 
business of developing games and gaming platforms. Going with 
the right service will ensure your organization's needs are being 
met, without taking too much time away from core business 
functions. 
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Note: 
The text is adapted from the website: 
http://dataconomy.com/2015/02/big-data-takes-over-the-gaming-industry/. 


参考 译文 


回 到 2013 年 ， 斯 台 普 斯 球 馆 在 一 个 小 时 内 卖 完了 所 有 的 票 ， 一 定 创造 了 某 种 非 官方 
的 售票 记录 。 不 过 ， 人 们 并 不 是 买 门票 来 看 湖人 队 或 是 国王 队 的 比赛 。 实 际 上 该 中 心 举办 
的 是 英雄 联盟 锦标 赛 。 英 雄 联 盟 是 一 个 广 受 欢迎 的 、 免 费 玩 的 、 虚 幻 的 战斗 游戏 。 所 以 是 
的 ， 你 没有 听 错 ， 超 过 10,000 人 买 票 观看 视频 游戏 比赛 。 

自从 有 了 诸如 乒乓 球 和 吃 豆 人 等 电子 游戏 ， 游 戏 产 业已 经 走 了 很 长 的 路 ， 现 在 价值 
超过 900 亿美 元 。 不 仅仅 是 索尼 、 微 软 或 艺 电 (EA) 等 大 型 企业 对 行业 做 出 了 贡献 ， 有 
成 千 上 万 的 小 型 开发 人 员 和 新 设计 师 为 较 新 的 平台 〈 如 社交 媒体 网 站 或 移动 设备 ) 编写 
游戏 。 
因为 线 上 是 有 很 多 利益 ， 市 场 上 玩家 和 开发 商 饱 和 ， 竞 争 非常 激烈 。 玩 家 只 有 有 限 的 
时 间 和 钱 ， 这 意味 着 开发 人 员 得 不 断 地 争取 把 他 们 的 游戏 宣传 到 玩家 的 手中 。 开 发 商 的 每 
-分 钟 和 每 一 块 钱 都 与 其 他 人 一 样 ， 更 不 用 说 ， 玩 家 比 以 往 任何 时 候 的 期 望都 多 。 界 面 和 
游戏 玩法 正在 达到 新 的 水 平 。 限 制 不 断 被 推动 ， 玩 家 不 会 将 就 。 许 多 在 大 型 系统 上 推出 的 
大 型 游戏 都 花费 巨大 ， 这 意味 着 如 果 它 们 失败 了 ， 那 么 背后 的 公司 可 能 就 完了 。 而 现在 ， 
随 着 社交 媒体 和 在 线 评论 的 普及 ， 一 些 有 影响 力 的 玩家 会 给 予 不 好 的 评价 ， 最 终 导 致 游戏 
在 发 布 后 的 几 个 星期 内 就 彻底 失败 。 

很 显然 ， 在 线 的 人 很 多 。 开 发 商 不 想 在 一 时 冲动 下 赌 上 数 亿美 元 。 这 就 是 为 什么 越 来 
越 多 的 公司 依靠 玩家 数据 来 增加 开发 流行 游戏 的 机 会 。 在 这 个 意义 上 ， 游 戏 公司 可 能 想 从 
Netflix 公司 "的 预定 记录 中 获得 一 些 经 验 。Netflix 收集 大 量 关 于 客户 的 信息 和 观看 习惯 。 
因此 ， 当 Netflix 发 行 了 一 系列 视频 产品 之 前 ， 它 就 已 经 信心 十 是 ， 就 像 发 行 电视 剧 House 
of Cards (纸牌 屋 ) 取得 成 功 一 样 。 现 在 几乎 所 有 的 游戏 机 甚至 是 移动 游戏 平台 都 进行 了 标 
准 化 的 互联 网 连接 。 这 不 仅仅 是 允许 玩家 与 来 自 世界 各 地 的 其 他 玩家 玩 游戏 。 开 发 一 款 在 
线 游戏 通常 具有 双重 目的 : 一 是 创建 在 线 账户 ， 这 使 得 开发 人 员 了 解 人 们 正在 玩 的 游戏 类 
型 ， 二 是 了 解 游戏 的 具体 方式 。 借 助 这 些 信 息 ， 他 们 可 以 了 解 游戏 趋势 并 根据 需求 定制 游 
戏 ， 这 样 大 大 提高 了 创造 成 功 游戏 的 机 会 。 

然而 ， 大 数据 不 仅仅 促进 了 大 型 游戏 公司 的 蓬勃 发 展 。 它 也 不 是 仅仅 为 了 创造 合适 的 
游戏 而 存在 的 。 除 了 制作 游戏 之 外 最 大 的 挑战 之 一 是 知道 如 何 通过 它们 获 利 。 这 对 于 社交 
媒体 或 移动 设备 〈 如 智能 手机 ) 的 游戏 尤其 如 此 。 通 过 游戏 获 利 有 很 多 不 同 的 方法 ， 如 商 
品 销售 或 提供 付费 游戏 ， 重 要 的 是 为 玩家 探索 正确 的 方法 。 











(D Netflix 公司 成 立 于 1997 年 ， 是 一 家 在 线 影片 租赁 提供 商 ， 主 要 提供 Netflix 超大 数量 的 DVD 并 免费 
递送 ， 总 部 位 于 美国 加 利 福 尼 亚 州 洛斯 盖 图 。 
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开发 人 员 想 保持 领先 地 位 并 意识 到 玩家 的 需求 和 趋势 ， 需 要 投资 于 正确 的 工具 ， 以 此 
来 分 析 数 百 万 用 户 和 数 百 个 游戏 平台 ， 但 显然 从 如 此 庞大 的 数据 得 到 分 析 结果 是 非常 困难 
的 。 大 多 数 大 型 公司 ， 特 别 是 游戏 行业 中 的 公司 ， 并 不 希望 利用 大 数据 分 析 游 戏 占 用 他 们 
的 时 间 。 他 们 致力 于 开发 游戏 和 游戏 平台 。 使 用 正确 的 服务 将 确保 公司 的 需求 得 到 满足 ， 
而 不 需要 太 多 的 时 间 远 离 核心 业务 功能 。 
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Big Data in Education 





Text A 


Colleges and universities are finally ditching legacy database 
systems and moving on to managing big data and its applications. 
This only goes to show how big data's adoption will be 
insuppressible across various industry sectors. 
Big data is making bigger inroads into the education industry 

Colleges and universities are not only inundated with data 
from legacy systems but have also begun to link disparate 
information from across the campus. The application of data-driven 
decision making has begun to permeate all aspects of campus life 
and operations, as enterprising leaders harness predictive analytics 
to tackle bottleneck courses, power advising initiatives and share 
best practices with their peers. We look at some features here that 
big data application might be able to provide in education sector. 
Improved Student Results 

The overall goal of Big Data within the educational system 
should be to improve student results. The answers to assignments 
and exams are the only measurements on the performance of 
students. During his or her student life, every student generates a 
unique data trail. This data trail can be analyzed in real-time to 
deliver an optimal learning environment for the student as well as to 
gain a better understanding in the individual behavior of the 
students. 


It is possible to monitor every action of the students — how 








New Words and Expressions 


ditch/dit/ v. 
WH, RH, ZF 


insuppressible/ msa'presabl/ 
adj 
抑制 不 住 的 
inundate/ Im.An.dert/ v. 
assignment/a sam.mant/ n. 
任务 ， 作 业 
trail/treil/ v. 
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long they take to answer a question, which sources they use, which | New Words and Expressions 
questions they skipped, how much research was done, what the complementary 
relation is to other questions answered, which tips work best for | /, kom.plr men.ter.i/ adj. 


which student, etc. Answers to questions can be checked instantly | 补充 的 ; 互补 的 
customization 
/'kas.to.mar ze1fan/ n. 


用 户 化 ， 专 用 化 ， 定 制 
dropout/ drop.aot/ n. 
prosper due to the selection of a group. Students often work in 辍学 者 


and automatically (except for essays perhaps) to give instant 
feedback to students. 
In addition, Big Data can help to create groups of students that 


groups where they may not be complementary to each other. With 
algorithms, it would be possible to determine the strengths and 
weaknesses of each individual student based on the way a student 
learned online, how and which questions were answered, the social 
profile etc. This will create stronger groups that will allow students 
to have a steeper learning curve and deliver better group results. 
Create mass customized programs 

All the data will help to create a customized program for each 
individual student. Big Data allows for customization at colleges 
and universities, even if they have 10,000 students. This can be 
created with blended learning; a combination of online and offline 
learning. It will give students the opportunity to develop their own 
personalized program, following those classes that they are 
interested in, working at their own pace, while having the 
possibility for (offline) guidance by professors. Providing mass 
customization in education is a challenge, but algorithms make it 
possible to track and assess each individual student. 

We already see this happening in the MOOC's (Massive Open 
Online Courses) that are being developed around the world. When 
Andrew Ng taught the Machine Learning class at Stanford 
University, generally 400 students participated. When it was 
developed as a MOOC at Coursera in 2011, it attracted 100,000 
students. Normally this would take Andrew Ng 250 years to teach 
the same amount of students. 100,000 students participating in a 
class generates a lot of data that can deliver tremendous insights. 
Being able to cater for 100,000 students at once also requires the 
right tools to be able to process, store, analyze and visualize all data 
involved in the course. At the moment, these MOOC 5s are still mass 
made, but in the future they can be mass customized. 

Reduce dropouts, increase results 





When students are closely monitored, receive instant feedback 
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and are coached based on their personal needs, it can help reduce | New Words and Expressions 


dropout rates. Predictive analytics on all the data that is collected | eliminate/r Irm.r.neit/ v. 


can give educational institutes insights in future student outcomes. 


These predictions can be used to change a program if it predicts bad | nascent/' ner.sont/ adj. 


results on a particular program or even run scenario analysis on a 


program before it is started. Universities and colleges will become | enormity/1 no:.mo.ti/ n. 
EX; 严重 性 ; 深远 影响 


more efficient in developing a program that will increase results, 
thereby minimizing trial-and-error. 

Over the last decade, Georgia State coupled data analytics with 
college advising to eliminate the gap in graduation rates between 
low-income and minority students and the rest of its student body, 
while also raising their overall graduation rate by 22 points. 

After graduation, students can still be monitored to see how 
they are doing in the job market. When the resultant insights are 
made public, it will help future students in their decision to choose 
the right university. 

While big data is still in a very nascent phase, its advantages in 
every sector are being realized with every passing day. The 
Education sector will always continue to be one of the most 
important areas of development for any country. Incorporating big 
data methods in education is surely going to help the students and 
society by placing the right people at the right positions. It's our 
future, let's make it big. 

Note: 

The text is adapted from the website: 








http://www.linkedin.com/pulse/big-data-making-bigger-inroads-education-industry-naveen-joshi. 


Comprehension 


Blank filling 
1. Colleges and universities are not only inundated with data from 


begun to link information from across the campus. 


2. During his or her student life, every student generates a unique 
trail can be analyzed in real-time to deliver an optimal learning 
student as well as to gain a better understanding in the individual 
students. 

3. With algorithms, it would be possible to determine the 


but have also 


. This data 


for the 
of the 


of each 


individual student based on the way a student learned . how and which questions 
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were answered, the social etc. 


. Providing mass customization in education is a challenge, but algorithms make it 


possible to and each individual student. 





. Predictive analytics on all the data that is collected can give educational institutes 


insights in future student . These predictions can be used to a program if 
it predicts bad results on a particular program or even run on a program 


before it is started. 


. After graduation, students can still be to see how they are doing in the job 


market. When the resultant insights are made public, it will help future students in their 
to choose the right university. 


Content Questions 


b. 
2. 
3. 


What are the advantages of applying large data in the education industry? 
What is the overall goal of big data in the education system? 
What is the data trail for during student's life? 


4. How does big data help reduce dropout rates? 


Answers 


Blank filling 


1. 


legacy systems; disparate 


2. data trail; environment; behavior 


3. strengths and weaknesses: online; profile 


4. track; assess 


5. outcomes; change; scenario analysis 


6. monitored; decision 


Content Questions 


LE 


Big data is making bigger inroads into the education industry. 
Improved Student Results. 
Create mass customized programs. 


Reduce dropouts, increase results. 


. The overall goal of Big Data within the educational system should be to improve student 


results. 


. The data trail can be analyzed in real-time to deliver an optimal learning environment for 


the student as well as to gain a better understanding in the individual behavior of the 
students. 


. When students are closely monitored, receive instant feedback and are coached based on 


their personal needs, it can help reduce dropout rates. 


Goi 
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参考 译文 


高 等 院 校 终 于 脱离 了 传统 的 数据 库 系 统 ， 并 开始 采用 大 数据 应 用 来 管理 数据 。 以 下 现 
状 呈 现 出 大 数据 在 各 个 领域 的 应 用 蓬勃 发 展 的 态势 。 

大 数据 正在 逐步 进入 教育 行业 

高 校 不 仅 充斥 着 遗留 系统 的 数据 ， 还 开始 将 来 自 整个 校园 的 不 同 信息 联系 起 来 。 数 据 
驱动 型 决策 的 应 用 已 经 开始 渗透 到 校园 生活 的 各 个 方面 ， 有 进取 心 的 领导 者 利用 预测 分 析 
来 处 理 瓶颈 课程 , 咨询 计划 并 与 同行 分 享 。 让 我 们 来 看 看 大 数据 如 何在 教育 领域 得 到 应 用 。 

提高 学 生成 绩 

教育 系统 中 大 数据 的 总 体 目标 应 该 是 提高 学 生成 绩 。 作 业 和 考试 的 答案 是 衡量 学 生 表 
现 的 唯一 标准 。 在 学 生生 活 中 ， 每 个 人 都 会 生成 一 个 独特 的 数据 跟踪 。 该 数据 跟踪 可 以 实 
时 分 析 ， 为 学 生 提 供 最 佳 的 学 习 环 境 ， 并 更 好 地 了 解 学 生 的 个 人 行为 。 

它 还 可 以 监测 学 生 们 的 每 一 个 行动 ， 例 如 : 他 们 回答 一 个 问题 需要 多 长 时 间 ， 使 用 哪 
些 资料 ， 跳 过 了 哪个 问题 ， 进 行 了 多 少 研 究 ， 这 些 问 题 与 其 他 问题 之 间 的 关系 是 什么 ， 哪 
些 建议 最 适合 哪个 学 生 等 等 。 问 题 的 答案 可 以 立即 自动 检查 (除了 论文 之 外 ) 并 给 学 生 
反馈 。 

此 外 ， 大 数据 可 以 在 学 生 群 体 中 帮助 他 们 筛选 出 一 个 完美 的 小 组 。 学 生 就 可 以 在 彼此 
互补 的 群体 中 成 组 地 去 工作 。 通 过 算法 ， 还 可 以 根据 学 生 在 线 学 习 的 模式 、 回 答 问题 的 方 
式 、 社 交 概 况 等 来 确定 每 个 学 生 的 优 缺 点 。 这 将 创建 更 强大 的 团队 ， 让 学 生 拥 有 一 个 整体 
呈 直 线 上 升 的 学 习 曲 线 ， 并 提供 更 好 的 团队 成 果 。 

创建 大 量 自 定 义 程 序 

海量 数据 将 有 助 于 为 每 个 学 生 创建 一 个 定制 的 计划 。 即 使 高 校 有 10,000 名 学 生 ， 大 数 
据 允 许 高 校 为 每 个 学 生 量 身 定制 计划 。 这 使 创建 混合 学 习 即 在 线 、 离 线 学 习 组 合 的 方式 成 
为 可 能 。 它 将 让 学 生 有 开发 自己 的 个 性 化 课程 的 机 会 ， 按 照 他 们 感 兴趣 的 课程 和 理想 的 速 
度 投入 学 习 ， 同 时 有 可 能 离线 获得 教授 的 指导 。 在 教育 中 提供 大 规模 定制 是 一 个 挑战 ， 但 
算法 使 得 跟踪 和 评估 每 个 学 生成 为 可 能 。 

目前 , 在 全 球 范围 内 开发 的 MOOC (大 规模 开放 在 线 课程 ) 中 实现 了 上 述 的 定制 计划 。 
安德鲁 。 伍 恩 在 斯 坦 福 大 学 教授 机 器 学 习 课时 , 一 般 有 400 多 名 学 生 参 加 。 2011 年 MOOC 
在 C 语言 课程 上 ， 吸 引 了 10 万 名 学 生 。 同 样 情况 下 ， 安 德 鲁 。 伍 恩 需 花费 250 年 时 间 才 
能 教 同样 数量 的 学 生 。 参加 课程 的 10 万 名 学 生产 生 了 大 量 可 以 提供 巨大 见解 的 数据 。 能够 
同时 照顾 10 万 名 学 生 ， 需 要 适当 的 工具 才能 处 理 、 存 储 、 分 析 和 可 视 化 课程 中 涉及 的 所 有 
数据 。 目 前 ， 这 些 MOOC 课程 已 经 大 规模 展开 ， 但 未 来 仍 可 以 大 量 定制 。 

减少 辍学 率 ， 增 加 成 果 

当 学 生 受到 密切 监测 时 ， 接 收 并 即时 反馈 信息 ， 根 据 个 人 情况 进行 辅导 ， 可 以 帮助 减 
少 辍 学 率 。 收 集 的 所 有 数据 的 预测 性 分 析 可 以 使 教育 机 构 洞 察 学 生 可 能 在 未 来 取得 的 成 就 。 
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如 果 系 统 在 场景 分 析 中 采用 试 错 法 预测 出 一 些 坏 的 结果 ， i 前 对 其 运行 方案 
分 析 ， 则 可 以 使 用 这 些 预测 来 更 改 项 目 。 高 校 将 会 开发 一 个 高 效 且 可 以 提高 预测 准确 度 的 
应 用 ， 从 而 最 大 限度 地 减少 试 错 法 带 来 的 危害 。 

过 去 十 年 间 ， 佐 治 亚 州 将 数据 分 析 与 高 校 咨 询 建立 起 联系 ， 和 旨 在 消除 低 收入 和 少数 民 

学 生 与 其 余 学 生 之 间 毕 业 率 的 差距 ， 同 时 将 毕业 率 提高 22%。 

毕业 后 ， 大 数据 系统 仍然 可 以 监测 学 生 ， 看 看 他 们 在 就 业 市 场 上 的 表现 。 当 公开 这 些 
结论 时 ， 未 来 的 学 生 可 以 依据 这 些 结论 来 选择 合适 的 大 学 。 

虽然 大 数据 仍 处 于 初级 阶段 ， 但 其 在 每 个 行业 的 优势 正在 逐渐 实现 。 教 育 领域 永远 是 
任何 国家 最 重要 的 发 展 领域 之 一 。 将 大 数据 方法 纳入 教育 ， 肯 定 会 帮助 学 生 和 社会 ， 把 正 
确 的 人 放 在 正确 的 位 置 。 这 是 我 们 的 未 来 ， 让 我 们 一 起 实现 。 


Text B 

















School of Big Data: How Analytics Benefits Higher Education 





For the past few years, big data has been making waves across | New Words and Expressions 


nearly every industry. However, nowhere is this more true than the | array/o ret / v. 
educational sector. Higher education institutions are typically some | %4; 队列， 阵列 ; 一 大 批 
of the first adopters of new technology. and colleges and 
universities across the country have been shaping their educational, 
recruitment and retention programs thanks to insights gleaned from 
big data analytics. 

What's more, with more employment opportunities for data 
scientists and analysts than ever before, many schools are offering 
new courses to ensure students are ready for their future careers. 

Big data analytics has much to offer when it comes to higher 
education. Let's take a look at a few ways colleges, universities and 
other schools can leverage these processes to their full advantage. 
Pulling from an array of internal sources 

While nearly every organization in any industry likely has a 
wealth of informational assets at its disposal from which to mine 
data, this is particularly true for educational institutions. Schools 
obtain a treasure trove of information from current and prospective 
students - and this is only a single big data source. Educational 
organizations are also turning to older systems to gather details and 
analyze them for valuable insights, opening up new possibilities. 

"Colleges and universities, inundated with data from legacy 


systems and incentivized by renewed accountability pressures, have 





begun to link disparate information from across the campus," 
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Bridget Burns, University Innovation Alliance's executive director, 
wrote for Forbes. “Historically limited to transactional data from 
registrars and student information systems, the application of 
data-driven decision-making has begun to permeate all aspects of 
campus life and operations - as enterprising leaders harness 
predictive analytics to tackle bottleneck courses, power advising 
initiatives and share best practices with their peers." 

In this way, schools aren't just leveraging all of their available 
resources. Administrators are also seeking out innovative ways to 
apply analytics findings to processes all across the institution. 
Setting sights on social media 

Schools are looking beyond their own big data for further 
insights as well. Leveraging social media information has now 
become a more common trend. In this way, schools' recruitment 
teams and administrators can learn as much about a particular 
student or group of pupils as possible. 

A recent Kaplan Test Prep survey found that 40 percent of 
admissions officers currently engage social media resources to get 
additional information about applicants. This process is also 
becoming more popular with scholarship funds as organizations 
seek to award monies to the most promising student candidates. 
Geographical targeting: Hitting students where they live 

Recruitment efforts have been especially impacted by big data, 
where analytics can help reveal where schools should focus their 
efforts and what kind of return on investment they can expect. 

Similar to the retail industry, higher education institutions can 
reduce their marketing spending by creating more targeted 
campaigns that appeal to audiences in a specific area. For example, 
if big data insights show that students in certain cities not only 
apply regularly to a college, but are most often accepted. the 
organization can adjust its marketing efforts accordingly. 

“If a university admissions office has a firm understanding of 
which geographical locations include the most applicants who 
enroll, it can cut marketing costs and produce enhanced results," 
Lauren Willison, Florida Polytechnic University director of 
admissions wrote in a guest post for IBM. "Rather than investing in 








New Words and Expressions 
permeate/' pa:.mi.eit/ v. 
渗透 ; 弥漫 
enterprising/ en teprarLzm/ adj. 
有 开创 能 力 的 
seek to 
设法 
retail/'ri:te1l/ n. 
EE, EX 
admissions office 
招生 办 公 室 
enroll/m rool/ v. 
(使 ) 加 入 ; 注册 
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unfocused campaigns that target a wide audience, money can be 
invested in specific markets that are more likely to boost the 
university's yield rate." 

Post-application: Selecting students to accept 

Big data analytics doesn't end after a student has submitted 
their application. Fast Company contributor Neal Ungerleider 
reported that more institutions are also leveraging big data to help 
make decisions about which students will be accepted. Analysis of 
certain datasets can show which candidates are the most likely to 
succeed at the college or university, and which might be more prone 
to drop out or fail. 

This type of predictive analytics is currently being used by 
Wichita State University, where it’s helping administrators make 
better informed decisions. Research shows that the school’s 
recruitment approach results in 96 percent accuracy in pinpointing 
which applicants are “high-yield” or will likely do well at the 
institution. 

Identifying educational troubles 

Analytics can also be used by schools to pinpoint which pupils 
might be struggling in their educational pursuits. One of the best 
ways this strategy has been applied is to identify troubles earlier in 
a student's academic career. For instance, if a student is 
underperforming in prerequisite classes, advisors can help guide 
them before they fall behind, fail a course or drop out of school. 

"Instead of falling through the cracks, students receive an early 
intervention with solutions such as rearranging course loads or 
exploring other paths to a degree," Willison pointed out. 

From big data to big dollars 

With so many industries buzzing about the advantages that big 
data analytics can offer, more individuals are seeking to pursue 
careers in this field. As a result, institutions are putting more big 
data, data science and analytics courses and programs into place. 
Tech Republic recently published a list of the top 20 schools 
offering such education, with Carnegie Mellon, Stanford and Santa 


Clara University topping the list. 
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New Words and Expressions 
yield rate 
收益 率 
prone to 
fcr 
crack/krek/ n. 
RE 
intervention/ m.to'ven.fon/ n. 
介入 , 干涉 
buzzing/' bAzm v. 
充满 兴奋 的 谈话 声 
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Requirements and considerations: An expert partner needed New Words and Expressions 
Big data analytics can offer nearly endless opportunities to | disparate/ drs parst adj. 

improve campus processes and enhance education. However, there 完全 不 同 的 

are a few challenges and requirements that administrators should be essential to 


aware of, not the least of which is data security. 对 … 必 不 可 少 
integrate/'1n.ti.grett/ v. 


使 一 体 化 ; 使 整合 


Institutions must have a secure environment in which to gather 
and work with their data, particularly if information includes 
students' sensitive personal details. What's more, with so many 
likely disparate data sources, it's essential to consider the work 
involved in integrating and organizing these datasets. 





Note: 

The text is adapted from the website: 

http:///www.linkedin.com/pulse/school-big-data-how-analytics-benefits-higher-heather-short- 
davis. 


参考 译文 


大 数据 下 的 学 校 : 高 等 教育 如 何 受 益 于 数据 分 析 

在 过 去 的 几 年 中 ， 大 数据 在 每 一 个 行业 持续 不 断 地 制造 艇 动 。 但 是 ， 还 没有 哪个 地 方 
比 教育 部 门 更 深 受 其 影响 。 高 等 教育 机 构 通 常 是 新 技术 的 第 一 批 采用 者 ， 得 益 于 大 数据 分 
析 的 深入 研究 ， 全 国 各 地 的 高 等 院 校 一 直 在 制定 其 教育 、 招 聘 和 留用 计划 。 

此 外 ， 数 据 科学 家 和 分 析 师 的 就 业 机 会 比 以 往 任 何 时 候 都 多 ， 许 多 学 校正 在 提供 新 课 
程 ， 以 确保 学 生 为 未 来 的 职业 做 好 准备 。 

大 数据 分 析 在 高 等 教育 方面 有 很 大 的 贡献 。 下 面 介 绍 高 等 院 校 充 分 利用 大 数据 的 几 种 
方式 。 

从 内 部 源 数组 中 得 出 重要 信息 

几乎 任何 行业 的 每 一 个 组 织 都 有 可 能 拥有 丰富 的 信息 资产 ， 可 从 中 挖掘 数据 ， 教 育 机 
构 尤 其 如 此 。 学 校 从 现在 和 未 来 的 学 生 中 获得 宝贵 的 信息 ， 这 是 一 个 大 数据 源 。 教 育 机 构 
也 正在 转变 旧 系 统 ， 收 集 细节 并 分 析 ， 寻 找 有 价值 的 见解 ， 开 辟 新 的 可 能 性 。 

大 学 革新 联盟 执行 董事 布 里 奇特 。 伯 恩 斯 (Bridget Bums) 为 《福布斯 》 杂 志 写 道 : 
“高 等 院 校 保存 大 量 历史 系统 数据 ， 在 不 断 革新 和 激励 问 责 的 压力 下 ， 已 将 这 些 来 自 整 个 
校园 的 不 同 信息 联系 起 来 。” 历 史上 仅 限 于 注册 服务 商 和 学 生 信息 系统 的 交易 数据 ， 数 据 
驱动 型 决策 的 应 用 已 经 开始 渗透 到 校园 生活 的 各 个 方面 一 一 企业 领导 者 利用 预测 分 析 来 处 
理 瓶 颈 课程 ， 提 供 咨询 计划 的 动力 并 与 同行 分 享 最 佳 的 实践 方法 。 

这 样 ， 学 校 不 仅仅 是 利用 其 所 有 的 可 用 资源 。 管 理 员 也 在 寻求 创新 的 方法 来 将 分 析 结 
论 应 用 于 整个 机 构 的 流程 中 去 。 
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着 眼 于 社交 媒体 

学 校正 在 进一步 处 理 自己 的 大 数据 ， 以 获得 更 进一步 的 洞察 。 目前， 利用 社交 媒体 信 
息 已 成 为 一 个 更 为 普遍 的 趋势 。 学 校 的 招生 团队 和 管理 人 员 可 以 尽 可 能 多 地 了 解 特定 的 学 
生 或 学 生 群 体 。 

最 近 的 Kaplan 测试 调查 发 现 ，40% 的 招生 人 员 目 前 正在 参考 社交 媒体 的 资源 ， 以 获得 
相关 申请 人 的 更 多 信息 。 这 个 过 程 也 越 来 越 受到 奖学金 基金 的 欢迎 ， 因 为 组 织 想 设 法 为 最 
有 和 希望 的 学 生 候 选 人 提供 奖金 。 

地 理 位 置 定位 : 了 解 目标 学 生 的 位 置 

招生 工作 受到 大 数据 的 影响 ， 数 据 分 析 可 以 帮助 学 校 找到 应 该 集中 力量 去 工作 的 方 
向 ， 以 确保 他 们 期 待 的 投资 得 到 回报 。 

与 零售 行业 类 似 ， 高 等 教育 机 构 可 以 通过 制定 更 具 针对 性 的 活动 来 减少 营销 支出 ， 从 
而 吸引 特定 领域 的 学 习 者 。 例 如 ， 如 果 大 数据 分 析 显 示 某 些 城市 的 学 生 经 常 申请 大 学 ， 而 
且 经 常 被 录用 ， 那 么 该 机 构 可 以 相应 地 调整 其 营销 工作 。 

佛罗里达 理工 大 学 招生 总 监 Lauren Willison 在 为 IBM 撰写 的 客座 文章 中 写 道 :“ 如 果 
did inn SN 室 对 那些 包括 最 多 申请 人 的 入 学 人 员 地 理 位 置 有 着 深刻 的 了 解 ， 那 么 它 可 以 

减少 营销 成 本 并 产生 更 高 的 回报 率 ， 而 不 是 投资 于 针对 广泛 受众 群体 的 营销 活动 ， 金 钱 应 
该 投资 于 更 有 可 能 提高 大 学 收益 率 的 特定 市 场 。” 

岗位 申请 : 选择 性 接收 学 生 

学 生 提交 申请 后 ， 大 数据 分 析 还 不 会 结束 。Fast 公司 投稿 人 晶 格 菜 德 在 报道 中 说 ， 很 
多 机 构 仍 在 利用 大 数据 来 帮助 其 决定 哪些 学 生 将 被 录取 。 对 某 些 数据 集 的 分 析 可 以 显示 哪 
些 考生 最 有 可 能 在 大 学 中 取得 成 功 ， 哪 些 考生 有 可 能 辍学 或 挂 科 。 

威 奇 塔 州立 大 学 目前 正在 使 用 这 种 预测 分 析 方 法 ， 帮 助 管理 人 员 做 出 更 明智 的 决策 。 
研究 表明 ， 这 所 学 校 的 招生 方式 可 以 有 96% 的 准确 率 来 确定 申请 人 是 “高 素质 ”， 或 者 很 
可 能 在 该 机 构 做 得 很 好 。 

识别 教育 问题 

学 校 也 可 以 使 用 分 析 软 件 来 确定 哪些 学 生 在 教育 方面 可 能 存在 问题 。 该 策略 应 用 的 最 
好 方法 之 一 是 在 学 生 学 术 生涯 的 早期 识别 他 们 可 能 存在 的 问题 。 例 如 ， 如 果 学 生 在 主 修 课 
程 表现 不 佳 ， 老 师 可 以 在 学 生 落 后 、 挂 科 或 退学 之 前 向 他 们 提供 帮助 和 指导 。 

威 利 森 指 出 :“ 学 生 们 可 以 通过 这 种 解决 方案 尽早 解决 课程 负担 ， 或 者 在 某 种 程度 上 
探索 其 他 途径 ， 尽 早 采 取 措 施 ， 而 不 是 辍学 。 

从 大 数据 到 大 财富 

随 着 许多 行业 都 已 意识 到 大 数据 分 析 的 优势 ， 更 多 的 人 正在 往 这 一 领域 寻求 职业 发 
展 。 因此 ， 机 构 正 在 提供 更 多 的 大 数据 、 科 学 的 分 析 课程 和 计划 。TechRepublic 最 近 发 布 
了 提供 这 种 教育 的 前 20 名 学 校 的 名 单 , 卡 内 基 梅 隆 大 学 、 斯 坦 福 大 学 和 圣 克 拉 拉 大 学 排 在 
榜首 。 
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要 求 和 注意 事项 : 需要 专家 级 合作 伙伴 


大 数据 分 析 可 以 提供 无 限 的 机 会 来 改善 校园 各 种 流程 〈 如 招聘 流程 、 学 习 流程 等 ) 并 


机 构 必 须 有 一 个 安全 的 环境 来 收集 和 处 型 





他 们 的 数据 ， 特 别 是 信息 中 包含 学 生 的 敏感 


个 人 信息 。 更 重要 的 是 ， 有 许多 可 能 的 不 同 的 数据 源 ， 必 须 考 虑 整合 和 组 织 这 些 数据 及 其 


所 涉及 的 工作 。 
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Big Data in Health 





Text A 


Big Data in Health Care: Supporting Insights with Colocation 
Health care organizations must ensure that any investment in 
emerging or advanced technology delivers real value for 
practitioners as well as their patients. Thankfully, this is one of the 
many sectors in which big data analysis has caught on, helping to 
bring a range of advantages for doctors, nurses and other providers 
across the globe. 

Healthcare IT News pointed out thatbig data holds 
considerable potential for this industry in particular. Through the 
analysis of depersonalized medical records, data shared from other 
providers and information from clinical trials, health care 
practitioners are able to pinpoint individuals who are at risk for 
certain conditions and ensure they get help.Big data also 
enables the best possible use of wearable health devices, keeping 
doctors in the loop about a patient's condition at all times and 
making sure that treatment intervention takes place at the most 
opportune time. 

As big data analysis continues to grow in the health care 
sector, so too does colocation. These services enable organizations 
to utilize space in an expert provider's data center, where servers 
and other critical computing equipment can be stored, maintained 


and accessed. In fact, the latest reports show that colocation is 








New Words and Expressions 


colocation /kvloo'kerfn / n. 
主机 托管 
depersonalize 
/di:'pa:sonolarz/ vt. 
使 失去 个 性 
intervention/ 1ntə'venfn/ n. 
干预 ; 调解 
initiative/r nifotrv/ n. 
倡议 ， 主 动 性 
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expanding across the board — RnR Market Research reported that 
the colocation market is on track to reach $54.13 billion by 2020, a 
significant expansion from its 2015 value of $25.70 billion. 

While both big data analysis and colocation can bring 
numerous benefits for health care institutions, these strategies are 
even more impactful when leveraged together. Colocation is critical 
for supporting today's big data initiatives, particularly in the health 
care industry. Today, we'll take a look at the connection that exists 
here, and why providers in this marketplace must have colocation 
support in place to ensure the success of their big data analysis. 
Health care and colocation 

Colocation has been an attractive option for companies in 
nearly every marketplace. Leveraging colocation services means 
that firms need not shell out the capital needed to build, configure, 
staff and maintain their own dedicated data centers, translating to 
considerable savings. At the same time, colocation also ensures that 
organizations’ computing equipment — which likely supports some 
of the most critical databases, applications and platforms required 
for daily operations — is secured, updated and maintained by a team 
of experts whose goal is to ensure the top performance of these 
essential computing assets. With these services in place, a 
company's own internal IT team isn't bogged down by these 
responsibilities, and can instead focus on other mission-critical 
aspects of the business's technology operations. 

Colocation is also critical when it comes to compliance. Health 
care organizations are beholden to several important industry 
regulations that impact their use of technology. The Health 
Insurance Portability and Accountability Act (HIPAA) requires that 
health care providers put certain safeguards in place to ensure the 
security of electronic protected health information. In other words, 
all documents containing the sensitive information of patients — 
medical histories, payment forms, etc. — must be stored and secured 
in a certain way. Thankfully, there are now expert colocation 
providers, like Data Realty, thatspecialize in establishing and 
maintaining just this type of environment, which helps to guarantee 
that health care companies are always compliant with the 


regulations and laws of their industry. 
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bogged down 
停滞 不 前 的 
compliance/kom plar.ons/ n. 


服从 ， 合 规 
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Bridging the gap: Colocation and big data New Words and Expressions 

Colocation isn’t just beneficial for health institutions — it's a | institution/ m-str'tfu: fon/ n. 
must for organizations that want to make the best use of their big 机 构 
data. Colocation support provides everything health care firms need | compile/kom pail/ v. 
for their analysis initiatives, including: 汇编 
A centralized repository for data: One of the biggest challenges | elastic/1 lzestrk/ adj. 
of any big data project isn't gathering the information, it's ensuring 有 弹力 的 
that all of these details are in a single, accessible location and are 
organized in such a way that they can be utilized by the company's | unified/'ju:.nt.fard/ adj. 
analysis tools. A collocated environment inside an expert provider's 统一 的 
data center can offer this centralized location, making it easy for 
health care organizations to compile, organize and analyze their 
available information. 

Scalable computing resources: Another issue with big data is right 
in its name sake — the expansive nature of this information requires 
a certain level of scalability that is difficult to achieve without the 
help of experts. Thankfully, this is another area in which colocation 
services shine, offering elastic, scalable resources for health care 
clients. In this way, the company's data center environment can 
grow alongside its big data, and customers never have to worry 
about running out of storage space. 

Support for computing-intensive processes: Big data analysis 
requires the use of specialized tools. However, these programs 
themselves need a high level of computing support to ensure that 
analysis processes can take place. Colocation providers can ensure 
that these demands are met, offering a high-performance computing 
environment that is ideal for intensive data analysis. 

However, when it comes to colocation, not all service 
providers are the same. Data Realty is a leader in this industry and 
has partnered with data science expert Aunalytics to create a unified 
approach to information storage and analysis. Services including 
data colocation, managed Hadoop hardware clusters and data 
interconnection ensure that customers can find everything they need 
in a single location. Best of all, Data Realty and Aunalytics 
specialize in the needs of the health care industry, offering secure 





environments for sensitive data. 
Note: 
The text is adapted from the website: 
http//www.linkedin.com/pulse/big-data-health-care-supporting-insights-colocation-short-davis. 
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Comprehension 


Blank filling 

1. Through the analysis of medical records, data shared from other providers and 
information from clinical trials, health care practitioners are able to pinpoint individuals 
who are for certain conditions and ensure they get 

2. As big data analysis continues to grow in the health care sector, so too does —  . 

3. Colocation also ensures that organizations' computing equipment — which likely supports 


some of the most critical ; and required for daily operations. 





4. A collocated environment inside an expert provider's data center can offer this 

centralized location, making it easy for health care organizations to — , — and 
their available information. 

5. Services including data — — , managed Hadoop hardware clusters and data 
ensure that customers can find everything they need in a single location. Best of all, Data 
Realty and Aunalytics specialize in the needs of the health care industry, offering 

for sensitive data. 

Content Questions 

1. What do health care institutions must ensure? 

2. What can big data do in the medical field? 

3. What is the purpose of HIPAA to require health care providers to develop certain 

safeguards? 
4. What does the colocation service provide for the health care company? 


Answers 


Blank filling 

1. depersonalized; at risk; help 

2. colocation 

3. databases; applications: platforms 

4. compile; organize; analyze 

5. collocation; interconnection; secure environments 

Content Questions 

1. Health care organizations must ensure that any investment in emerging or advanced 
technology delivers real value for practitioners as well as their patients. 

2. Through the analysis of depersonalized medical records, data shared from other providers 


and information from clinical trials, health care practitioners are able to pinpoint 
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individuals who are at risk for certain conditions and ensure they get help. 


[m 


. HIPAA requires that health care providers put certain safeguards in place to ensure the 
security of electronic protected health information. In other words, all documents 
containing the sensitive information of patients — medical histories, payment forms, etc. — 
must be stored and secured in a certain way. 

4. A centralized repository for data, scalable computing resources, support for computing- 


intensive processes. 


参考 译文 


医疗 保健 中 的 大 数据 : 通过 数据 托管 提供 支持 

医疗 保健 机 构 必须 确保 在 新 兴 技 术 或 先进 技术 方面 的 投资 能 够 为 从 业者 及 其 病人 带 
来 真正 的 价值 。 值 得 庆幸 的 是 , 这 是 大 数据 分 析 涉 及 的 众多 领域 之 一 ， 有 助 于 为 全 球 医生 、 
护士 和 其 他 供应 商 提供 一 系列 的 帮助 。 

医疗 保健 IT 新 闻 指 出 , 大 数据 在 这 个 行业 的 潜力 尤为 巨大 。 通过 从 其 他 提供 者 分 享 的 
数据 和 来 自 临床 试验 的 信息 分 析 非 人 格 化 医疗 记录 ， 医 疗 保健 从 业 人 员 能 够 确定 处 于 某 些 
危险 状况 的 个 人 ， 并 确保 帮助 他 们 。 大 数据 还 可 以 尽 最 大 可 能 更 好 地 使 用 可 穿戴 的 健康 设 
备 ， 使 医生 随时 关注 患者 的 状况 ， 并 在 最 合适 的 时 间 进 行医 疗 干预 。 

随 着 医疗 保健 部 门 的 大 数据 分 析 以 及 数据 托管 的 继续 发 展 ， 这 些 服务 使 组 织 能 够 利 
用 那些 专业 供应 商 的 数据 中 心 的 空间 ， 该 空间 可 以 存储 、 维 护 和 访问 服务 器 和 其 他 关键 
计算 设备 。 事 实 上 ， 最 新 的 报告 显示 ， 托 管 业务 正在 全 面 扩大 一 一 RnR Market Research 报 
道 ， 到 2020 年 ， 托 管 市 场 将 达到 541.3 亿美 元 ， 相 比 于 2015 年 的 25.70 亿美 元 会 有 大 幅 
增长 。 

虽然 大 数据 分 析 和 托管 都 可 为 医疗 保健 机 构 带 来 许多 好 处 ， 但 是 这 些 策略 在 一 起 融合 
使 用 时 更 具 影 响 力 。 数 据 托管 对 于 支持 今天 的 大 数据 计划 至 关 重 要 ， 特 别 是 在 医疗 保健 行 
业 。 接 下 来 ， 我 们 将 看 看 两 者 的 联系 ， 以 及 为 什么 这 个 市 场 中 的 服务 提供 商 必 须 具 备 托管 
能 力 ， 才 能 确保 大 数据 分 析 的 成 功 。 

医疗 保健 和 数据 托管 

数据 托管 几乎 对 市 场 的 每 个 公司 都 具有 吸引 力 。 因 为 利用 托管 服务 意味 着 公司 不 需要 
支出 基础 设施 构建 、 配 置 硬件 、 管 理 员 和 维护 自己 专用 数据 中 心 所 需 的 成 本 ， 从 而 节省 了 
大 量 资金 转化 为 可 见 的 储蓄 。 同 时 ， 托 管 可 以 确保 组 织 的 计算 设备 由 专业 人 士 进 行 更 新 和 


























和 平台 。 通过 这 些 服务 ,公司 自己 的 内 部 IT 团队 不 会 因为 这 些 任务 而 拖延 主要 任务 , 而 是 
可 以 专注 于 业务 技术 运营 的 其 他 关键 方面 的 任务 。 

涉及 法 律 法 规 时 ， 托 管 也 是 至 关 重 要 的 。 医 疗 保健 组 织 受到 影响 其 技术 使 用 的 若干 重 
要 行业 法 规 的 制约 。 健 康 保险 携带 责任 法 案 (HIPAA) 要 求 医疗 保健 提供 者 制定 一 些 保障 
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措施 ， 以 确保 数字 健康 信息 的 安全 。 换 句 话说， 包含 患者 敏感 信息 的 所 有 文件 一 一 医疗 
史 、 付 款 表格 等 必须 以 某 种 方式 存储 和 保护 。 幸 运 的 是 ， 现 在 有 专业 托管 服务 提供 商 ， 如 
Data Realty， 专 门 建立 和 维护 这 种 类 型 的 环境 ， 这 有 助 于 保证 医疗 保健 公司 始终 遵守 行业 
的 规则 和 法 规 。 

弥补 差距 : 数据 托管 和 大 数据 

数据 托管 不 仅 对 医疗 机 构 有 益 ， 对 于 想 要 充分 利用 其 大 数据 的 组 织 来 说 ， 这 也 是 一 项 
必要 措施 。 数 据 托管 为 医疗 保健 公司 的 分 析 行 为 提供 了 它们 所 需 的 一 切 帮助 ， 包 括 : 

集中 式 数据 库 : 任何 大 型 数据 项 目 面临 的 最 大 挑战 之 一 不 是 收集 信息 ， 而 是 确保 所 有 
这 些 数据 细节 都 处 于 一 个 单一 的 可 访问 的 存储 空间 ， 并 以 结构 化 方式 进行 组 织 ， 以 便 公 司 
的 分 析 工 具 利 用 。 专 业 服 务 提供 商 的 数据 中 心 可 以 构造 这 种 共享 环境 ， 提 供 这 种 集中 式 的 
数据 存储 ， 使 医疗 机 构 易于 编辑 、 组 织 以 及 分 析 其 可 用 信息 。 

可 扩展 的 计算 资源 : 大 数据 的 另 一 个 问题 正如 同 它 的 名 字 一 一 这 种 信息 的 广泛 性 质 需 
要 一 定 程度 的 可 扩展 性 ， 在 没有 专家 的 帮助 下 难以 实现 。 幸 运 的 是 ， 这 是 托管 服务 的 另 一 
个 领域 ， 为 医疗 保健 客户 提供 具有 弹性 的 、 可 扩展 的 资源 。 这 样 ， 公 司 的 数据 中 心 环 境 可 
以 与 其 大 数据 一 起 发 展 ， 客 户 永远 不 用 担心 存储 空间 不 足 。 
支持 计算 密集 型 处 理 : 大 数据 分 析 需 要 使 用 专门 的 工具 。 然 而 ， 这 些 程序 本 身 需 要 高 
水 平 的 计算 支持 ， 以 确保 分 析 过 程 平稳 运行 。 托 管 提 供 商 可 以 确保 满足 这 些 需求 ， 提 供 对 
于 密集 型 数据 分 析 理想 的 高 性 能 计算 环境 。 
但 是 ， 在 涉及 托管 时 ， 并 非 所 有 的 服务 提供 商都 是 一 样 的 。Data Realty 是 该 行业 的 领 
导 者 ， 并 与 数据 专家 Aunalytics (Aunalytics 是 一 个 大 数据 分 析 公 司 ) 合 作 ， 共 同 创建 统一 的 
信息 存储 和 分 析 方 法 。 服 务 包括 数据 托管 、 管 理 Hadoop 的 硬件 集群 和 数据 互 连 ， 确 保 客 
户 能 够 在 一 个 位 置 找到 所 需 的 一 切 。 最 重要 的 是 ， 他 们 能 够 专注 于 医疗 保健 行业 的 需求 ， 
为 敏感 数据 提供 安全 环境 。 











Text B 


Big Data in healthcare = Big Health? 
It was just a little side notice: The pharmaceutical company Sanofi | New Words and Expressions 





and Verily Life Sciences, belonging to the Big Data giant Google, | pharmaceutical company 
form a joint venture called Onduo. Together they will support 制药 公司 
patients with type 2 s in taking the medication timely, adequately | verily/' ver.ol.i/ adv. 
and they will raise the patients’ awareness for healthy behavior. 真正 地 ; 真实 地 
How exactly they want to achieve that, the published press release | diabetes/ dat.o'bi:.ti:z/ n. 
does not tell. 糖尿 病 
Google and Big Data press release 
This joint venture is not the first undertaking of Verily Life 新 闻 稿 
Sciences. 2014, the company was working on a contact lens that | joint venture 
would measure blood sugar levels via the eye fluid. In 2015 that | _ 合资 企业 
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very company developed a medical identification bracelet to 
measure heart rate, skin temperature and sunlight. It is clear that it 
is about data, about Big Data, where Google is involved. And 
Google is getting ready to become a major player in the health 
sector too. 
The data sea 

Big Data in the medical field is a current, but not a new 
phenomenon. While Germany is in a slumber concerning this issue, 
the move towards Big Health Data in other countries is well 
underway. It has been recognized that in the medical field, a large 
amount of data is obtained: Personal patient data, disease history, 
family medical history, medical reports, medical expenses, data that 
may be incurred by technical equipment in the course of a 
treatment, such as by MRI, blood tests, X-ray, but also self-imposed 
health data e.g by means of health apps. 
Fishing in the sea of data 

The analysis of these heterogeneous data sets can reveal 
What the 
emergence of a disease? Who is predominantly affected? What 


previously unknown relationships. factors favor 
prevention measures are effective? Which therapy is promising for 
which group of people? At the same time costs can be reduced in 
the health sector: health insurance can compare courses of treatment 
for the same symptoms and prevent possible misdiagnosis. 
Likewise, doctors can decide on therapies based on similar 
illnesses, hospitals could improve their bed planning. Costly clinical 
trials could be superfluous. 

Dr. Altman and Dr. Tatonetti from Stanford University found 
out — solely on the basis of data analysis - that the antidepressant 
Paxil and the cholesterol-lowering drug Pravastatin taken in parallel 
lead to an increase in blood sugar levels. 

For information on risks and side-effects 

These are the advantages of Big Health Data. According to 
data protectionists however there are significant risks too. Medical 
data is highly sensitive information, which is not intended for 
foreign eyes. A 100 percent protection of this data cannot be 
guaranteed since systems can be hacked and sensitive information 
could get into the wrong hands. Then the question arises, for which 


aim all the data collected will be used. The fact escapes in many 
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New Words and Expressions 
eye fluid 

眼 液 
slumber/'slam.bər/ n. 

睡觉 ， 睡 眠 


medical expenses 
医疗 费用 

heterogeneous data 
异 构 数据 

predominantly/pri dom.1.non.tli/ 
adv. 
占 主导 地 位 地 

prevention measures 
预防 措施 

misdiagnosis/ misdar.og noo.sts/ n. 
误诊 

clinical trial 
临床 试验 

superfluous /su: ps:fluss/ adj. 
过 多 的 ; 不 必要 的 

get into the wrong hands 
落 到 不 妥当 人 手 里 
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cases, contrary to German data protection law, the knowledge of the | New Words and Expressions 
data donor. Lastly one must always be aware of the fact that Big | merging/m3:d3m/ n. 


Data is only about correlations, not about causal relation. Big Data 合并 


cannot substitute scientific evidence. for the time being 
暂时 
Aglance in the future feudalism/ 'fju:dolizom/ n. 


In Germany, merging medical data will remain difficult for the | 封建 制度 ， 封 建 主义 
time being. The federal structure of health services and the low 
cross-linking of health actors such as doctors, health insurances, 
hospitals, corporate health services etc. make practical 
implementation hard. However, there are first initiatives to make 
data accessible for large scale analysis. So it is a question of time 
before the Big “Health” Data wave spills over to Germany. 

Perhaps we could use the remaining time to prepare concrete 
measures on how to benefit from the advantages of Big “Health” 
Data without throwing privacy overboard. Here a look at our Swiss 
neighbors might be interesting. There, the project MIDATA was 
launched some time ago. It is a nonprofit organization that allows 
citizens, on a voluntary basis to store their data and to decide for 
themselves whom they give access to their data and for what 
purposes. The aim is to end the digital feudalism and to promote a 








self-determined data handling. 
Note: 
The text is adapted from the website: 
http://www. linkedin.com/pulse/big-data-healthcare-health-ina-brecheis. 


和 参考 译文 


一 则 简短 的 报道 称 : 隶属 于 大 数据 巨人 谷歌 公司 的 赛 诺 菲 制药 公司 和 Verily 生命 科学 
公司 组 建 了 一 家 名 为 Onduo 的 合资 企业 。 它 们 能 提示 开 型 糖尿 病 病 人 及 时 并 尽量 地 用 药 ， 
是 高 患者 的 健康 行为 意识 。 发 布 的 新 闻 稿 并 没有 说 明 它 们 如 何 达到 这 一 目标 。 

谷歌 和 大 数据 

这 个 合资 企业 不 是 Verily 生命 科学 公司 的 第 一 项 事业 。2014 年 ， 该 公司 正在 研究 通过 
测量 眼睛 液体 来 获取 血糖 水 平 的 隐形 眼镜 。 在 2015 年 ,该 公司 开发 了 一 种 医疗 鉴定 手镯 来 
测量 心率 、 皮 肤 温度 和 日 光 强度 。 很 明显 ， 这 些 都 是 关乎 数据 ， 关 平谷 歌 涉及 的 大 数据 。 
谷歌 正 准备 成 为 医疗 行业 的 主要 参与 者 。 

数据 的 海洋 

医疗 领域 的 大 数据 是 当前 的 现象 ， 却 非 新 的 现象 。 虽 然 德 国 在 这 个 问题 上 处 于 麻木 状 
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ds, UWI AUT BR ETE Rs AK CAS, EI IERRA 
数据 ， 个 人 病人 资料 、 疾 病史 、 家 庭 病史 、 医 疗 报告 、 医 疗 费用 ， 技术 设备 在 治疗 过 程 中 
采集 可 能 发 生 的 数据 ， 例 如 通过 MRI、 血 液 测试 、X 光 检查 ， 还 可 以 通过 健康 应 用 程序 自 
行 采集 健康 数据 。 

在 数据 海洋 中 获取 有 用 信息 

通过 对 异 构 数据 集 的 分 析 可 以 揭示 以 前 未 知 的 联系 。 什 么 因素 导致 出 现 疾病 ? 谁 主要 
受 影响 ? 哪 种 预防 措施 有 效 ? 哪 一 种 治疗 对 于 哪 一 组 人 来 说 是 有 希望 的 ? 同时 ， 医 疗 部 站 
的 成 本 可 以 降低 ， 健 康 保险 可 以 比较 相同 症状 的 治疗 方案 ， 并 防止 可 能 的 误诊 。 同 样 ， 医 
生 可 以 根据 类 似 的 疾病 来 决定 治疗 ， 医 院 可 以 改善 他 们 的 床位 规划 ， 同 时 还 可 以 减少 不 必 
要 的 晶 贵 的 临床 试验 。 

斯 坦 福 大 学 的 Altman 博士 和 Tatonetti 博士 发 现 ， 仅 仅 基于 数据 分 析 ， 当 抗 抑 邦 药 
Paxil 和 胆固醇 降低 药物 普 伐 他 汀 同时 摄取 时 ， 就 会 导致 血糖 水 平 升 高 。 

风险 和 副作用 的 信息 

以 上 都 是 大 健康 数据 的 优点 。 但 是 数据 保护 主义 者 认为 大 数据 也 存在 重大 的 风险 。 医 
疗 数据 是 高 度 敏 感 的 信息 ， 不 能 用 于 其 他 用 途 。 由 于 系统 可 能 直到 黑客 攻击 ， 敏 感 信息 可 
能 会 落 入 不 法 分 子 手中 ， 所 以 无 法 保证 100% 的 数据 安全 。 那 么 问题 就 出 现 了 ， 所 有 收集 
的 数据 将 基于 什么 目的 使 用 。 事 实 上 ， 在 许多 情况 下 ， 数 据 的 来 源 都 是 违背 德国 数据 保护 
法 的 。 最 后 ， 必 须 始终 意识 到 大 数据 只 是 相关 性 关系 ， 而 不 是 因果 关系 。 大 数据 并 不 能 取 
代 科学 证 据 。 

大 数据 的 未 来 

在 德国 ， 医 疗 数据 的 整合 目前 仍 将 是 困难 的 。 医 疗 服务 的 结构 以 及 医生 、 医 疗 保险 、 
医院 、 企 业 医疗 服务 等 医疗 从 业者 交流 不 畅 ， 使 得 实际 工作 变 得 困难 重重 。 然 而 ， 我 们 在 
数据 分 析 方面 已 经 做 了 初步 的 党 试 使 数据 得 以 大 规模 地 进行 分 析 。 所 以 大 的 “健康 ”数据 
浪潮 清 向 德国 只 是 时 间 问题 。 

也 许 我 们 可 以 利用 剩 下 的 时 间 来 制定 具体 的 措施 ， 如 何 从 大 的 “健康 ”数据 中 获 益 ， 
而 不 会 冒犯 隐私 。 在 这 里 我 们 可 以 借鉴 瑞士 的 经 验 。 在 瑞士 ，MIDATA 项 目 是 在 很 久 以 前 
推出 的 。 这 是 一 个 非 营 利 组 织 ， 允 许 公民 在 自愿 的 基础 上 存储 他 们 的 数据 ， 并 自己 决定 认 
以 什么 目的 可 以 访问 他 们 的 数据 。 其 目的 是 结束 数字 封建 制度 ， 推 动 自主 的 数据 处 理 。 
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Text A 


The banking industry has developed in its service delivery and 
technological innovation. Banking services is a critical component 
for the day to day activities as most transaction are undertaken 
through the banking sector. The number of customers served in the 
banking sector has increased exponentially. Each transaction in the 
banking sector amount to data creation and collection. The banking 
industry produces a large volume of data on a day to day activities. 
The adoption big data analytics of the generated data will 
revolutionize the banking sector at present and in the future. 
Customer segmentation 

The banking industry is entitled to a lot of personal 
information of their customers. The available information has a lot 
of potentials when utilized by the banking sector effectively. The 
banks currently can track customer transaction in real time. 
Through the available information, the bank can segment the 
customer based on different parameters such as net worth; customer 
preferred credit card among others. The segmentation of customer 
enables the bank to customized services and bundle packages that 
are deemed suitable for the different customer segments with high 
accuracies. Big data allows summarization of the available 
information into an actionable data that the bank can leverage. 

The segmentation of customers has improved banking industry 


marketing sector. The bank can now develop a marketing strategy 








New Words and Expressions 

innovation/ 1n.o ver. fan/ n. 
改革 ， 创 新 

exponentially/ ek.spo'nen.fali/ 


adv. 
以 指数 方式 
revolutionise/ rev.o'lu: fan.atz/ v. 
使 发 生 革 命 性 剧变 
segmentation/ segmen terfan/ n. 
分 段 
entitle/m tar.tl/ v. 
AT ( 某 人 … ) 的 权利 
net worth 


净值 
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that is channeled to particular market niches. The customized 
marketing strategies have increased market reach in the banking 
sector and widened the customer base of banks. 

Improvement of products and services 

The bank can follow the conversation of clients on the digital 
platforms. The available information is used to determine the 
different needs of the customers and make them available to them 
in real time. Through evaluating the services offered by other 
banks, the company can be able to customize its services so that 
they are unique and gain competitive advantage. Most of the banks 
believe that leveraging Big data creates competitive advantage in 
the banking sector. 

Operation efficiency 

The banking industry is a fast growing industry with ever 
increasing expectation of customers. The volume of information 
gathered in the sector is enormous too and is expected to increase in 
the future. A significant amount of information is challenging to 
analyze and simplify in the absence of big data. Implementation of 
big data analytics ensures that the banking industry databases can 
store and process the information faster and safer for efficient use. 
The big data thus enabled improved efficiency through which the 
data of customers is handled. 

The aim of many businesses is to lower the cost of operation 
and increase the business profitability. The big data adoption in the 
banking industry ensures the operation cost are reduced. This is 
through automation of most of the repetitive activities in the bank 
sector that lower the cost of undertaking such activities. The 
efficiency of operation is also improved through real-time analysis 
of information and integration across the bank platform and access 
to the information from all the bank branches. 

Big data in the banking sector provides the bank with real-time 
information in all the operation levels of the company. There are 
many indicators put in place to monitor the banking operation. As 
such, a problem can easily be identifying even before it has a 
catastrophic effect on the bank operation. Big data analytics in 
banking helps in reducing technical error that impact on the 


customers. 








New Words and Expressions 
niche /nitf/ n. 
合适 的 位 置 (工作 等 ) 有 利 可 
图 的 缺口 ， 商 机 
repetitive / IT petetrv/ adj. 
重复 的 
profitability /,prpfrtabrlatr / n. 
HAY (状况 ) 


integration/ into 'grer.f(o)n/ n. 
整合 ， 一 体 化 
catastrophic/ko tzs.tro.fik/ adj. 
灾难 的 
accredited/a'kred.1.tid/ adj. 
公认 的 
vulnerabe /'vAlnorobl/ adj. 
易 受 攻击 的 ， 易 受伤 的 
Ífraudulent/'fro:.d7o.lont/ adj. 
欺骗 的 ， 欺 诈 的 
drastically/' dra:s.tr.kol.i/ adv. 
大 大 地 ， 彻 底 地 
Cyber security 
网 络 安全 
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Big data have been accredited with stimulating innovation. 
The banking operation succeeds on the basis of innovation which 
not only improves the efficiency of operation but also gives the 
banks a competitive advantage. The banking industry has adopted 
big data to come up with innovation to enhance operation such as 
the mobile banking. 

Risk management 

The banking sector is left vulnerable due to the large amount 
of information that it handles. Fraud is one of the major risks that 
banks face in its day to day operation. The big data enables 
monitoring of all the transaction. With increased availability of 
information, the banks can distinguish a genuine transaction from a 
fraudulent one, and this has drastically reduced the loses of the bank 
from fraudulent activities. This is though integrating all bank 
information in a central place that ensures the security of data. 

Cyber security has been one of the major safety issues relating 
to information handled by banks. The big data provide the 
organization with real-time information that is able to detect any 
security breach in its platform. The information available also 
enable the bank to identify any weak spots in its system, and a 
meant them before cyber criminals exploit them. 

The financial market is now globalized due to technological 
innovation. A ripple of instability in any one economy can be felt 
across the globe similar to the 2008/9 financial crisis. The Big data 
provides the banking industry with the ability to evaluate all factors 
in the market that may impact their operation and be able to put 
contingency strategy to protect its operation and the interest of its 
customers and thus lowering risks. 

Future of banking 

The adoption of the big data in the banking industry has not 
yet been fully explored. The expenditure in big data analytics in the 
future is expected to increase as more and more banks fully adopt 
big data analytics. There is expected to be more innovation and big 
data techniques in the banking industry. Banks will have to select 
the most effective technique that will transform its operation. The 
phase of the banking industry will change when the industry fully 
adopts the broad application of the big data. 

The customer experience is expected to change in the future. 


The efficiency of bank operation, real-time sharing of information, 








New Words and Expressions 
evaluate/1 vzel.ju.eit/ v. 
评估 ， 评 价 ; 估 值 
ripple/ rip.ol/ n. 
mn 微波 
contingency /kon tmn.dzon.si/ n. 
可 能 发 生 的 事 
expenditure/ik spen.dr.tfar/ n. 
全 部 开支 ， 花 费 
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linking to bank industry to other industry and automation of some function will greatly improve 
service delivery and customer satisfaction in the banking industry. For sure the future of the 
banking industry relies on big data analytics. 

Note: 

The text is adapted from the website: 

http://www.linkedin.com/pulse/big-data-inbanking-nikunj-thakkar. 


Comprehension 


Blank filling 

1. Through the analysis of medical records, data shared from other providers and 
information from clinical trials, health care practitioners are able to pinpoint individuals 
who are for certain conditions and ensure they get 

2. As big data analysis continues to grow in the health care sector, so too does 

3. Colocation also ensures that organizations' computing equipment — which likely supports 


some of the most critical A and required for daily operations. 





4. A colocated environment inside an expert provider’s data center can offer this centralized 


location, making it easy for health care organizations to ; and 





their available information. 

5. Services including data — — , managed Hadoop hardware clusters and data 
ensure that customers can find everything they need in a single location. Best of all, Data 
Realty and Aunalytics specialize in the needs of the health care industry, offering 

for sensitive data. 

Content Questions 

1. What do health care institutions must ensure? 

2. What can big data do in the medical field? 

3. What is the purpose of HIPAA to require health care providers to develop certain 

safeguards? 


4. What does the colocation service provide for the health care company? 


Answers 


Blank filling 

1. depersonalized; at risk; help 

2. colocation 

3. databases; applications; platforms 


4. compile; organize; analyze 
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5. collocation; interconnection; secure environments 
Content Questions 
1. Health care organizations must ensure that any investment in emerging or advanced 


technology delivers real value for practitioners as well as their patients. 


N 


. Through the analysis of depersonalized medical records, data shared from other providers 
and information from clinical trials, health care practitioners are able to pinpoint 
individuals who are at risk for certain conditions and ensure they get help. 


v 


. HIPAA requires that health care providers put certain safeguards in place to ensure the 
security of electronic protected health information. In other words, all documents 
containing the sensitive information of patients — medical histories, payment forms, etc. — 
must be stored and secured in a certain way. 

4. A centralized repository for data, scalable computing resources, support for 

computing-intensive processes. 


参考 译文 


银行 业 在 为 用 户 提供 服务 和 技术 创新 上 得 到 了 前 所 未 有 的 发 展 。 银 行 服务 是 人 们 日 常 
活动 的 关键 组 成 部 分 , 大 多 数 交 易 都 是 通过 银行 进行 的 。 银 行业 服务 的 客户 数量 急剧 增多 ， 
其 部 门 的 每 笔 交 易 也 都 涉及 数据 的 创建 和 收集 ， 这 些 事件 每 天 都 产生 了 大 量 数据 。 如 果 对 
产生 的 数据 进行 大 数据 分 析 ， 将 彻底 改变 现 有 和 未 来 的 银行 业 。 
客户 划分 
银行 业 有 权 获 得 客户 的 大 量 个 人 信息 , 然后 有 效 利用 这 些 信息 , 发 挥 出 其 巨大 的 潜力 。 
目前 ， 银 行 可 以 实时 监控 客户 交易 。 通 过 现 有 信息 ， 银 行 可 以 根据 不 同 的 参数 如 净值 ， 
客户 使 用 信用 卡 的 偏好 等 ) 对 客户 进行 细 分 ， 这 使 银行 能 够 更 准确 地 为 不 同 客户 群体 定制 
适合 的 服务 。 银 行 可 以 利用 大 数据 将 可 用 信息 变 成 可 以 利用 的 可 操作 数据 。 

将 这 些 客户 进行 分 类 ， 可 使 银行 业 营销 部 门 的 工作 水 平 得 以 提高 。 现 在 ， 银 行 可 以 制 
定 一 个 营销 策略 , 并 用 该 策略 引导 特定 的 市 场 。 定制 的 营销 策略 增加 了 银行 业 的 市 场 份额 ， 
扩展 了 银行 的 客户 群 。 

改善 产品 和 服务 

银行 可 以 随时 跟 客户 在 数字 平台 上 交流 ， 得 到 的 信息 将 用 于 判断 客户 的 不 同 需求 ， 并 
将 这 种 需求 实时 提供 给 他 们 。 同 时 ， 银 行 可 以 通过 评估 其 他 银行 的 服务 来 定制 自己 独 一 无 
二 的 服务 ， 从 而 获得 竞争 优势 。 大 多 数 银行 认为 利用 大 数据 可 以 为 其 创造 优势 。 

运行 效率 

银行 业 是 一 个 快速 发 展 的 行业 ， 客 户 对 其 期 望 越 来 越 高 。 银 行 收集 的 信息 量 也 越 来 越 
多 ， 而 且 预 计 未 来 会 持续 增加 。 在 没有 大 数据 分 析 技术 的 情况 下 ， 对 大 量 的 信息 进行 分 析 
和 简化 是 很 困难 的 。 实 施 大 数据 分 析 可 确保 银行 业 数 据 库 能 够 更 快 更 安全 地 存储 和 处 理 信 
息 ， 以 便 更 有 效 地 利用 信息 ， 由 此 提高 处 理 客户 数据 的 效率 。 
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运营 成 本 降低 ， 通 过 自动 化 银行 的 重复 活动 来 降低 活动 成 本 。 通 过 实时 分 析 银 行 平台 的 信 
息 ， 整 合 所 有 分 行 的 信息 来 提高 运营 效率 。 

银行 的 大 量 客户 数据 为 银行 提供 了 所 有 业务 层面 的 实时 信息 ， 也 提供 了 许多 指标 来 监 
督 银 行业 。 因 此 ， 银 行业 能 在 巨大 危险 来 临 前 确定 问题 所 在 。 大 数据 分 析 有 助 于 减少 对 客 
户 产 生 影响 的 技术 错误 。 

大 数据 在 银行 业 的 应 用 是 一 项 巨大 的 创新 。 银 行业 务 的 创新 ， 不 仅 提 高 了 经 营 效率 ， 
而 且 给 银行 带 来 了 竞争 优势 。 银 行业 采取 大 数据 提出 了 加 强手 机 银行 业务 等 的 创新 。 

风险 管理 

银行 部 门 由 于 需要 处 理 大 量 信 息 ， 因 此 有 容易 受到 攻击 的 风险 。 欺 诈 行 为 是 银行 日 常 
运营 面临 的 主要 风险 之 一 。 大 数据 可 以 监控 所 有 的 交易 。 随 着 信息 的 可 用 性 的 增加 ， 银 行 
可 以 区 分 真正 的 交易 和 欺诈 行为 ， 这 大 大 减少 了 银行 被 欺诈 而 造成 的 损失 。 将 所 有 银行 信 
息 整 合 在 一 个 数据 中 心 可 以 确保 数据 的 安全 。 

网 络 安全 一 直 是 银行 信息 处 理 的 主要 安全 问题 。 大 数据 提供 能 够 检测 公司 平台 中 安全 
漏洞 的 实时 信息 ， 还 能 在 网 络 犯罪 分 子 利 用 这 些 信息 之 前 找 出 系统 的 漏洞 。 

由 于 技术 创新 ， 金 融 市 场 已 经 实现 了 全 球 化 。 任 何 一 个 经 济 体 的 不 稳定 状态 都 会 波及 
全 球 ，2008 一 2009 年 的 全 球 金融 危机 就 是 一 个 例子 。 大 数据 为 银行 业 提 供 了 评估 市 场 上 可 
能 影响 其 业务 的 所 有 因素 的 能 力 ， 并 且 能 够 采取 应 急 策 略 来 保护 其 运营 和 客户 利益 ， 从 而 
降低 风险 。 

银行 业 的 未 来 

银行 业 大 数据 还 在 发 展 。 随 着 越 来 越 多 的 银行 采用 大 数据 分 析 ， 预 计 未 来 大 数据 分 析 
的 支出 将 会 增加 。 更 多 的 创新 和 大 数据 技术 将 涌 进 银行 业 。 银 行 必须 选择 最 有 效 的 技术 来 
改变 其 运作 方式 。 当 大 数据 在 银行 业 广泛 应 用 时 , 银行 业 的 发 展 将 会 发 生 翻天 覆 地 的 变化 。 

随 着 大 数据 在 银行 业 的 发 展 ， 客 户 体验 将 会 发 生变 化 。 银 行业 务 效率 的 提高 、 实 时 信 
息 的 共享 更 新 、 银 行业 与 其 他 行业 的 联系 、 功 能 的 自动 化 等 都 将 大 大 提高 银行 业务 服务 能 
力 和 客户 满意 度 。 值 得 肯定 的 是 ， 银 行业 的 未 来 会 依赖 于 大 数据 分 析 。 


Text B 


Big Data: Profitability, Potential and Problems in Banking 






































More than 70% of banking executives worldwide say customer | New Words and Expressions 
centricity is important to them. However, achieving greater | centricity/'sentrisiti/ n. 
customer centricity requires a deeper understanding of customer 中 心性 
needs. Research from Capgemini indicates that only 37% of | portion/'po:.fon/ n. 
customers believe that banks understand their needs and preferences 一 部 分 ; 一 份 
adequately. hands-on 

The truth is that financial institutions are struggling to profit 实际 动手 操作 的 


from ever-increasing volumes of data. Banks are only using a small 
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portion of this data to generate insights that enhance the customer 
experience. For instance, research reveals that less than half of 
banks analyze customers’ external data, such as social media 
activities and online behavior. And only 29% analyze customers” 
share of wallet, one of the key measures of a bank’s relationship 
with its customers. 

Only 37% of banks have hands-on experience with live big 
data implementations, while the majority of banks are still focusing 
on pilots and experiments. Capgemini research shows that 
organizational silos are the single biggest barrier to success with big 
data. A dearth of analytics talent, high cost of data management, and 
a lack of strategic focus on big data are also major stumbling 
blocks. 

Customer data typically resides in silos across lines of business 
or is distributed across systems focused on specific functions such 
as CRM, portfolio management and loan servicing. As such, banks 
lack a seamless 360-degree view of the customer. Further, many 
banks have inflexible legacy systems that impede data integration 
and prevent them from generating a single view of the customer. 
Lack of Strategic Focus: Big Data Viewed as Just Another “IT 
Project” 

Big data requires new technologies and processes to store, 
organize, and retrieve large volumes of structured and unstructured 
data. Traditional data management approaches followed by banks 
do not meet big data requirements. For instance, traditional 
approaches hinge on a relational data model where relationships are 
created inside the system and then analyzed. However, with big 
data, it is difficult to establish formal relationships with the variety 
of unstructured data that comes through. Similarly, most traditional 
data management projects view data from a static and/or historic 
perspective. 

While most IT projects are driven by the twin facets of 
stability and scale, big data demands discovery, ability to mine 
existing and new data, and agility. Consequently, by taking a 
traditional IT-based approach, organizations limit the potential of 
big data. In fact, Capgemini says an average company sees a return 
of just 55 cents on every dollar that it spends on big data. 








New Words and Expressions 
dearth/d3:0/ n. 
缺乏 
stumbling blocks 
绊脚石 
seamless/'si:m.los/ adj. 
无 颖 的 
reside in 
存在 于 ， 属 于 
portfolio management 
证 券 管理 
loan servicing 
贷款 服务 
inflexible/m flek.so.bol/ adj. 
不 可 改变 的 ， 不 愿 变更 的 
legacy/ leg.o.si/ n. 
历史 遗产 


retrieve/rr tri:v/ v. 
检索 
hinge on 
取决 于 … 
Deutsche Bank 





mainframe/ mern.frem/ n. 
(大 型 计算 机 的 ) 主机 ， 大 型 机 


overlap/ 20.vo lap/ v. 


(与 …) X4 
unravel/An rzv.ol/ v. 
拆散 
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Deutsche Bank's Big Data Plans Held Back By Legacy 
Infrastructure 

Deutsche Bank has been working on a big data implementation 
since the beginning of 2012 in an attempt to analyze all of its 
unstructured data. However, problems have arisen while attempting 
to unravel the traditional systems - mainframes and databases, and 
trying to make big data tools work with these systems. 

The bank has been collecting data from the front end (trading 
data), the middle (operations data) and the back-end (finance data). 
Petabytes of this data are stored across 46 data warehouses, where 
there is 90% overlap of data. It is difficult to unravel these data 
warehouses that have been built over the last two to three decades. 
The data integration challenge and the significant investments made 
by the bank in traditional IT infrastructure pose a key question for 
the bank's senior executives — what do they do now with their 
traditional system? They believe that big, unstructured and raw data 
analysis will provide important insights, mainly unknown to the 
bank. But they need to extract this data, streamline it and build 
traceability and linkages from the traditional systems, which is an 
expensive proposition. 

Reality Check: If a bank the size of Deutsche - one of the 
biggest banks on earth - struggles with big data, you can be sure 
that most smaller institutions will face even greater obstacles. 

How Can Banks Realize Greater Value From Their Data? 

Customer data analytics has been a relatively low priority area 
for banks. Most have concentrated their energy on risk 
management, not using analytics to enhance the customer 
experience, Capgemini says. 

But their research shows that banks applying analytics to 
customer data have a four-percentage point lead in market share 
over banks that do not. The difference in banks that use analytics to 
understand customer attrition is even more stark at 12-percentage 
points. 

Capgemini believes banks can maximize the value of their 
customer data by leveraging big data analytics across the three key 
areas of customer retention, market share growth and increasing 


share of wallet. 
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New Words and Expressions 
stark/sta:k/ adv. 
明显 地 
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Maximizing Lead Generation 

Big data solutions can help banks generate leads for customer 
acquisition more effectively. Take the case of US Bank, the fifth 
largest commercial bank in the US. The bank wanted to focus on 
multi-channel data to drive strategic decision-making and maximize 
lead conversions. The bank deployed an analytics solution that 
integrates data from online and offline channels and provides a 
unified view of the customer. This integrated data feeds into the 
bank's CRM solution, supplying the call center with more relevant 
leads. It also provides recommendations to the bank's web team on 
improving customer engagement on the bank's website. As a result, 
the bank's lead conversion rate has improved by over 100% and 
customers receive an enhanced and personalized experience. The 
bank also executed three major website redesigns in 18 months, 
using data-driven insights to refine website content and increase 
customer engagement. 

Next Best Action Analytics Models Unlock Opportunities to 
Drive Top Line Growth 

From ^next best offer" to cross-selling and up-selling, the 
insights gleaned from big data analytics allows financial marketers 
to make more accurate decisions. Big data analytics allows banks to 
target specific micro customer segments by combining various data 
points such as past buying behavior, demographics, sentiment 
analysis from social media along with CRM data. This helps 
improve customer engagement, experience and loyalty, ultimately 
leading to increased sales and profitability. 

Predictive analytics can improve conversion rates by seven 
times and top-line growth ten-fold. Capgemini studied the impact of 
using advanced, predictive analytics on marketing effectiveness for 
a leading European bank. The bank shifted from a model where it 
relied solely on internal customer data in building marketing 
campaigns to one where it merged internal and external data sets 
and applied advanced analytics techniques to this combined data 
set. As a result of this shift, the bank was able to identify and 
qualify its target customers better. 

Big data Analytics Helps Banks Limit Customer Attrition 
A mid-sized European bank used data sets of over 2 million 


customers with over 200 variables to create a model that predicts 








New Words and Expressions 
shift/ frft/ v. 
改变 
solely/‘saul.li/ adv. 
单独 地 
merge/m3:d3/ v. 
融入 
logistic regression model 
逻辑 回归 模型 
decision tree 


决策 树 
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the probability of churn for each customer. An automated scorecard | New Words and Expressions 
with multiple logistic regression models and decision trees | outflow/'aot.floo/ n. 
calculated the probability of churn for each customer. Through early | byt; 流出 
identification of churn risks, the bank saved itself millions of 
dollars in outflows it otherwise could not have avoided. 
Note: 
The text is adapted from the website: 
https://thefinancialbrand.com/38801/big-data-profitability-strategy-analytics-banking/. 
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银行 业 大 数据 的 盈利 能 力 、 潜 力 和 存在 问题 

全 球 超过 70% 的 银行 业 高 管 认 为 ， 深 入 地 了 解 客户 的 需求 、 以 客户 为 中 心 是 至 关 重 要 
的 。 但 Capgemini 的 研究 表明 ， 只 有 37% 的 客户 认为 银行 充分 了 解 他 们 的 需求 和 偏好 。 

事实 上 ， 金 融 机 构 正在 从 不 断 增 加 的 数据 中 获 利 。 银 行 目 前 只 使 用 这 些 数 据 的 一 小 部 
分 来 增强 客户 的 体验 。 研 究 显示 ， 不 到 一 半 的 银行 分 析 客 户 的 外 部 数据 ， 如 社交 媒体 活动 
和 在 线 行为 。 客 户 资金 的 分 配 是 衡量 银行 与 客户 关系 的 关键 措施 ， 但 是 只 有 29% 的 银行 对 
客户 资金 进行 了 分 析 。 

只 有 37% 的 银行 有 实时 大 数据 的 实践 经 验 , 而 大 多 数 银行 仍然 处 于 摸索 阶段 。Capgemini 
研究 表明 ， 分 析 人 才 不 足 、 数 据 管理 成 本 高 、 缺 乏 对 大 数据 的 战略 重点 认识 度 以 及 组 织 之 
间 的 信息 不 互通 ， 都 成 为 大 数据 成 功 的 最 大 障碍 。 

客户 数据 通常 存储 于 业务 线 上 的 数据 孤岛 中 ， 或 分 布 在 专注 于 特定 功能 的 系统 中 (如 
CRM、 投 资 组 合 管理 和 贷款 服务 )。 因 此 ， 银 行 对 客户 无 法 全 面 了 解 。 此 外 ， 许 多 银行 都 
有 不 灵活 的 遗留 系统 ， 阻 碍 了 数据 集成 并 阻止 他 们 生成 单一 的 客户 视图 。 


大 数据 需要 新 的 技术 和 流程 , 对 大 量 的 结构 化 和 非 结构 化 数据 进行 存储 、 组 织 和 检索 。 
银行 遵循 的 传统 数据 管理 方法 与 大 数据 的 管理 方法 不 符 。 例 如 ， 传 统 方法 取决 于 关系 数据 
模型 ， 数 据 关系 在 系统 内 部 建立 ， 然 后 才 进 行 分 析 。 然 而 ， 使 用 大 数据 ， 很 难 通过 各 种 非 
结构 化 的 数据 建立 正式 的 关系 。 另 外 ， 大 多 数 传统 的 数据 管理 项 目 是 从 静态 或 历史 的 角度 
来 查看 数据 的 ， 这 都 与 大 数据 的 管理 方法 不 符 。 

大 多 数 信息 技术 项 目 都 是 由 稳定 和 规模 两 个 方面 驱动 的 ， 但 大 数据 要 求 探索 和 发 现 ， 
即 挖掘 现 有 的 数据 和 发 现 新 数据 的 能 力 以 及 敏捷 性 。 因 此 ， 采 用 传统 的 基于 IT 的 方法 ， 限 
制 了 大 数据 的 潜力 。Capgemini 表示 ， 一 家 普通 公司 的 数据 表明 : 在 大 数据 上 每 一 美元 的 
支出 ， 对 应 只 有 55 美 分 的 收益 。 

德意志 银行 的 大 数据 计划 以 传统 基础 设施 为 背景 

É 2012 年 初 以 来 ， 德 意志 银行 一 直 在 开展 大 数据 分 析 的 实施 方案 ， 试 图 分 析出 所 有 
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非 结构 化 数据 。 然 而 ， 在 尝试 研究 传统 系统 大 型 机 和 数据 库 ， 并 使 大 数据 工具 与 这 些 系统 
一 起 工作 时 出 现 了 问题 。 

传统 银行 从 前 端 (交易 数据 )、 中 端 (操作 数 据 》 和 后 端 (财务 数据 收集 数据 。 这 
些 PB 级 数据 存储 在 46 个 90% 重 霍 的 数据 库 中 。 这 些 数据 库 已 经 建立 了 二 三 十 年 , 所 以 很 
难 被 分 解 开 。 银行 高 管 人 员 认 为 , 数据 集成 的 挑战 以 及 银行 在 传统 IT 基础 设施 方面 的 重大 
投资 是 目前 的 关键 问题 一 一 他 们 现在 用 传统 的 系统 做 什么 ? 他 们 认为 非 结 构 化 的 原始 数据 
给 银行 提供 了 重要 的 信息 。 他 们 需要 提取 并 简化 这 些 数据 ， 构 建 可 追溯 的 与 传统 系统 的 联 
系 ， 显 然 目 前 这 个 计划 是 非常 昂贵 的 。 

现实 : 德意志 银行 (世界 上 最 大 的 银行 之 一 ) 仍然 视 大 数据 为 待 攻克 的 难题 ， 所 以 大 
多 数 较 小 的 银行 同样 面临 更 大 的 障碍 。 

银行 如 何 从 数据 中 实现 更 大 的 价值 ? 

对 于 银行 业 ， 客 户 数据 分 析 和 其 他 业务 相 比 并 未 受到 同等 的 重视 。Capgemini 指出 ， 
大 多 数 银行 将 精力 集中 在 风险 管理 上 ， 而 不 是 使 用 分 析 来 增强 客户 体验 。 

他 们 的 研究 显示 ， 对 客户 数据 进行 分 析 的 银行 所 占 的 市 场 份额 比 没有 分 析 的 银行 要 高 
出 四 个 百分点 。 与 使 用 了 数据 来 分 析 客户 消费 的 银行 之 间 的 差异 就 更 加 明显 ， 为 12 个 百 
分 点 。 

Capgemini 认为 ， 银 行 可 以 通过 在 三 个 关键 领域 利用 大 数据 分 析 来 最 大 限度 地 发 挥 客 
户 数据 的 价值 : 客户 的 留存 率 ， 市 场 份额 的 增长 和 金钱 份额 的 增加 。 

大 限度 地 提高 数据 的 主导 性 

大 数据 解决 方案 可 帮助 银行 更 有 效 地 获取 潜在 客户 。 以 美国 第 五 大 商业 银行 为 例 ， 该 
银行 希望 通过 专注 于 多 渠道 数据 ， 推 动 战略 决策 ， 最 大 限度 地 提高 访客 成 交 率 。 银 行 部 署 
了 一 个 分 析 解 决 方案 ， 用 以 整合 来 自在 线 和 离线 渠道 的 数据 ， 并 提供 客户 的 统一 视图 。 该 
数据 可 以 给 银行 的 CRM. (客户 关系 管理 ) 提供 解决 问题 的 方案 ,为 呼叫 中 心 提供 更 多 相关 
的 潜在 客户 。 它 还 向 银行 网 络 团队 提供 了 关于 改善 银行 网 站 上 客户 参与 度 的 建议 。 因 此 ， 
银行 的 访客 成 交 率 提高 了 100% 以 上 ， 客 户 也 获得 增强 的 、 个 性 化 的 体验 。 该 银行 还 在 18 
个 月 内 重新 设计 了 三 个 主要 网 站 ， 使 用 数据 驱动 等 方法 来 改进 网 站 内 容 ， 增 加 了 客户 参 
与 度 。 

采用 最 佳 行为 分 析 模 型 将 开启 推动 收入 增长 的 机 会 

从 “最 佳 报价 ”到 交叉 销售 和 向 上 销售 ， 金 融 营销 人 员 通 过 大 数据 分 析 做 出 了 准确 的 
决策 。 通 过 结合 各 种 数据 点 (例如 过 去 的 购买 行为 、 人 口 统计 、 社 交 媒 体 的 情绪 分 析 以 及 
CRM 数据 ) 来 针对 特定 的 微型 客户 群体 。 这 有 助 于 提高 客户 参与 度 、 体 验 和 忠诚 度 ， 最终 
使 销售 水 平和 鳃 利 能 力 得 到 了 提高 。 

预测 分 析 可 以 将 成 交 率 提高 七 倍 ， 收 入 增长 十 倍 。Capgemini 研究 了 使 用 预测 分 析 对 
欧洲 领先 银行 的 营销 效果 的 影响 。 银 行 从 一 个 完全 依靠 内 部 客户 数据 建立 营销 活动 的 模式 
转换 到 一 个 将 内 部 和 外 部 数据 集合 并 应 用 于 高 级 分 析 技 术 的 组 合 数据 集中 模式 中 。 由 于 这 
一 转变 ， 银 行 能 够 更 好 地 识别 和 评估 其 目标 客户 。 
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大 数据 分 析 可 减少 银行 的 客户 流失 

一 家 中 等 规模 的 欧洲 银行 使 用 了 包括 超过 200 万 个 客户 的 数据 集 ， 有 200 多 个 变量 来 
创建 一 个 预测 客户 流失 概率 的 模型 ， 其 中 一 个 自动 记分 卡 可 计算 每 个 客户 流失 的 概率 ， 它 
是 由 多 个 逻辑 回归 模型 和 决策 树 搭建 。 银 行 也 通过 大 数据 分 析 及 时 识别 出 客户 流失 风险 
素 ， 从 而 避免 数 百 万 美元 的 资金 外 流 。 
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A 

Aggregation 
Algorithms 
Analytics 
Anomaly detection 


Anonymization 
Application 
Artificial intelligence 


B 
Behavioural analytics 


Big data scientist 
Big data startup 
Biometrics 

BB, Brontobytes 


Business intelligence 


c 


Classification analysis 


聚合 一 一 搜索 、 合 并 、 显 示 数 据 的 过 程 

算法 一 一 可 以 完成 某 种 数据 分 析 的 数学 公式 

分 析 法 一 一 用 于 发 现 数据 的 内 在 含义 

异常 检测 一 一 在 数据 集中 搜索 与 预期 模 或 行为 不 匹配 的 数据 
Jil. PR anomalies， 用 来 表示 异常 的 词 有 以 下 几 种 : outliers, 
exceptions，surprises，contaminants。 它 们 通常 可 提供 关键 的 可 
执行 信息 











匿名 化 一 一 使 数据 匿名 ， 即 移 除 所 有 与 个 人 隐私 相关 的 数据 
应 用 一 一 实现 某 种 特定 功能 的 计算 机 软件 
人 工 智能 一 一 研发 智能 机 器 和 智能 软件 ， 这些 智 能 设备 能 够 感 





知 周遭 的 环境 ， 并 根据 要 求 作 出 相应 的 反应 ， 甚 至 能 自我 学 习 


行为 分 析 法 一 一 这 种 分 析 法 是 根据 用 户 的 行为 如 “怎么 做 ”“ 为 
什么 这 么 做 ”以 及 “做 了 什么 ”来 得 出 结论 ， 而 不 是 仅仅 针对 
人 物 和 时 间 的 一 门 分 析 学 科 ， 它 着 眼 于 数据 中 的 人 性 化 模式 




















大 数据 科学 家 一 能 够 设计 大 数据 算法 、 使 得 大 数据 变 得 有 用 
的 人 

大 数据 创业 公司 一 指 研发 最 新 大 数据 技术 的 新 兴 公 司 

生物 测定 术 一 根据 个 人 的 特征 进行 身份 识别 

B 字 节 一 约 等 于 1000YB (Yottabytes) ， 相 当 于 未 来 数字 化 
字 宙 的 大 小 

商业 智能 一 一 系列 理论 、 方 法 学 和 过 程 ， 使 得 数据 更 容易 被 
理解 


分 类 分 析 一 一 从 数据 中 获得 重要 的 相关 性 信息 的 系统 化 过 程 ; 


Cloud computing 


Clustering analysis 


Cold data storage 
Comparative analysis 
Complex structured data 
Computer generated data 
Concurrency 
Correlation analysis 
CRM 

D 

Dashboard 

Data aggregation tools 
Data analyst 

Database 
Database-as-a-service 


DBMS 


Data centre 
Data cleansing 


Data custodian 


Data ethical guidelines 


Data feed 
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这 类 数据 也 被 称 为 元 数据 (meta data) ， 是 描述 数据 的 数据 
云 计算 一 一 构建 在 网 络 上 的 分 布 式 计算 系统 , 数据 是 存储 于 机 
房 外 的 〈 即 云端 ) 

聚 类 分 析 一 一 将 相似 的 对 象 聚合 在 一 起 , 每 类 相似 的 对 象 组 合 
成 一 个 聚 类 (也 叫 作 簇 ) 的 过 程 。 这 种 分 析 方 法 的 目的 在 于 分 
析 数 据 间 的 差异 和 相似 性 

冷 数据 存储 一 一 在 低 功 耗 服务 器 上 存储 那些 几乎 不 被 使 用 的 
旧 数 据 。 这 些 数 据 检索 起 来 将 会 很 耗 时 

对 比分 析 一 一 在 非常 大 的 数据 集中 进行 模式 匹配 时 , 进行 一 步 
步 地 对 比 和 计算 过 程 ， 得 到 分 析 结 果 

复杂 结构 的 数据 一 一 由 两 个 或 多 个 复杂 而 相互 关联 部 分 组 成 
的 数据 , 这 类 数据 不 能 简单 地 由 结构 化 查询 语言 或 工具 (SQL) 
解析 

计算 机 产生 的 数据 一 一 如 日 志文 件 这 类 由 计算 机 生成 的 数据 
并 发 一 一 同时 执行 多 个 任务 或 运行 多 个 进程 

相关 性 分 析 一 一 一 种 数据 分 析 方 法 , 用 于 分 析 变 量 之 间 是 否 存 
在 正 相关 或 者 负 相 关 

客户 关系 管理 (customer relationship management) 一 一 用 于 管 
理 销售 、 业 务 过 程 的 一 种 技术 ， 大 数据 将 影响 公司 的 客户 关系 
管理 的 策略 














仪表 板 一 一 使 用 算法 分 析 数 据 ， 并 将 结果 用 图 表 方式 显示 于 仪 
表 板 中 

数据 聚合 工具 一 一 将 分 散 于 众多 数据 源 的 数据 转化 成 一 个 全 
新 数据 源 的 过 程 

数据 分 析 师 一 一 从 事 数据 分 析 、 建 模 、 清 理 、 处 理 的 专业 人 员 
数据 库 一 一 一 个 以 某 种 特定 的 技术 来 存储 数据 集合 的 仓库 
数据 库 即 服务 一 一 部 署 在 云端 的 数据 库 ， 即 用 即 付 ， 例 如 亚 马 
逊 云 服务 (Amazon web services, AWS) 

数据 库 管 理 系统 (database management system) 一 一 收集 、 存 
储 数据 ， 并 提供 数据 的 访问 

数据 中 心 一 一 一 个 实体 地 点 ， 放 置 用 来 存储 数据 的 服务 器 
数据 清洗 一 一 对 数据 进行 重新 审查 和 校 验 的 过 程 ， 目 的 在 于 删 











除 重复 信息 、 纠 正 存在 的 错误 ， 并 提供 数据 一 致 性 

数据 管理 员 一 一 负责 维护 数据 存储 所 需 技术 环境 的 专业 技术 
Ad 

数据 道德 准则 一 一 这 些 准则 有 助 于 组 织 机 构 使 其 数据 透明 化 ， 
保证 数据 的 简洁 、 安 全 及 隐私 


数据 订阅 一 一 一 种 数据 流 ， 例 如 Twitter 订阅 和 RSS 
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Data marketplace 
Data mining 

Data modeling 
Data set 

Data virtualization 


De-identification 


Discriminant analysis 


Distributed File System 
Document store databases 
E 

Exploratory analysis 

EB, Exabytes 


ETL, extract, transform and 
load 


F 
Failover 


Fault-tolerant design 


G 
Gamification 


Graph databases 


数据 集 市 一 一 进行 数据 集 买 卖 的 在 线 交 易 场所 

数据 挖掘 一 一 从 数据 集中 发 掘 特定 模式 或 信息 的 过 程 

数据 建 模 一 一 使 用 此 技术 来 分 析 数 据 对 象 ,以 此 洞悉 数据 的 内 
在 含义 

数据 集 一 一 大 量 数据 的 集合 

数据 虚拟 化 一 一 数据 整合 的 过 程 ， 以 此 获得 更 多 的 数据 信息 ， 
这 个 过 程 通常 会 引入 其 他 技术 ,例如 数据 库 、 应 用 程序 、 文 件 
系统 、 网 页 技术 、 大 数据 技术 等 

去 身份 识别 也 称 为 匿名 化 (anonymization〉， 确 保 个 人 不 
会 通过 数据 被 识别 

判别 分 析 一 一 将 数据 分 类 ; 按 不 同 的 分 类 方式 ， 可 将 数据 分 配 
到 不 同 的 群 组 、 类 别 或 者 目录 。 是 一 种 统计 分 析 法 ， 可 以 对 数 
据 中 某 些 群 组 或 集群 的 已 知 信息 进行 分 析 ， 并 从 中 获取 分 类 











规则 

分 布 式 文件 系统 一 一 提供 简化 的 、 高 可 用 的 方式 来 存储 、 分析 、 
处 理 数据 的 系统 

文件 存储 数据 库 又 称 为 文档 数据 库 (document-oriented 


database), 为 存储 、 管 理 、 恢 复 文档 数据 而 专门 设计 的 数据 库 ， 
这 类 文档 数据 也 称 为 半 结 构 化 数据 


探索 性 分 析 一 一 在 没有 标准 流程 或 方法 的 情况 下 从 数据 中 发 
掘 模式 ， 是 发 掘 数 据 和 数据 集 主要 特性 的 一 种 方法 

了 E 字 节约 等 于 1000PB (Petabytes) ， 约 等 于 10°GB. W4 
全 球 每 天 所 制造 的 新 信息 量 大 约 为 1EB 

提取 -转换 -加 载 一 一 一 种 用 于 数据 库 或 者 数据 仓库 的 处 理 过 
程 。 即 从 各 种 不 同 的 数据 源 提取 E) 数据 ， 并 转换 〈T) 成 能 
满足 业务 需要 的 数据 ， 最 后 将 其 加 载 CL) 到 数据 库 





故障 切换 一 一 当 系统 中 某 个 服务 器 发 生 故 障 时 ， 能 自动 地 将 运 
行 任务 切换 到 另 一 个 可 用 服务 器 或 节点 上 

容错 设计 一 一 一 个 支持 容错 设计 的 系统 应 该 能 够 做 到 当 某 一 
部 分 出 现 故 障 也 能 继续 运行 


游戏 化 一 一 在 非 游戏 领域 中 运用 游戏 的 思维 和 机 制 , 这 种 方法 
可 以 一 种 十 分 友好 的 方式 进行 数据 的 创建 和 侦 测 ， 非 常 有 效 
图 形 数据 库 一 一 运用 图 形 结构 〈 例 如 一 组 有 限 的 有 序 对 ， 或 者 
某 种 实体 ) 来 存储 数据 。 这 种 图 形 存储 结构 包括 边缘 、 属 性 和 
节点 ， 它 提供 了 相 邻 节点 间 的 自由 索引 功能 ， 也 就 是 说 ， 数 据 
库 中 每 个 元 素 都 与 其 他 相 邻 元 素 直接 关联 
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Grid computing 网 格 计算 一 一 将 许多 分 布 在 不 同 地 点 的 计算 机 连接 在 一 起 , 用 
以 处 理 某 个 特定 问题 ， 通 常 是 通过 云 将 计算 机 相连 在 一 起 

H 

Hadoop 一 个 开源 的 分 布 式 系统 基础 框架 ,可 用 于 开发 分 布 式 程序 ， 进 
行 大 数据 的 运算 与 存储 

HBase Hadoop 数据 库 一 一 一 个 开源 的 、 非 关系 型 、 分 布 式 数 据 库 ， 
与 Hadoop 框架 共同 使 用 

HDFS Hadoop 分 布 式 文件 系统 (Hadoop Distributed File System) 一 一 
一 个 被 设计 成 适合 运行 在 通用 硬件 (commodity hardware) 上 
的 分 布 式 文件 系统 

HPC 高 性 能 计算 (high-performance-computing) 一 一 使 用 超级 计算 
机 来 解决 极其 复杂 的 计算 问题 

I 

IMDB 内 存 (in-memory) 数据 库 一 一 一 种 数据 库 管 理 系统 ， 与 普通 


数据 库 管理 系统 不 同 之 处 在 于 ， 它 用 主 存 来 存储 数据 ， 而 非 硬 
盘 。 其 特点 在 于 能 高 速 地 进行 数据 的 处 理 和 存 取 

Internet of Things 物 联网 一 一 在 普通 的 设备 中 装 上 传感器 , 使 这 些 设备 能 够 在 任 
何 时 间 任 何 地 点 与 网 络 相连 

J 

Juridical data compliance 。 ”法律 上 的 数据 一 致 性 一 一 当 使 用 的 云 计 算 解 决 方案 将 数据 存 
储 于 不 同 的 国家 或 不 同 的 大 陆 时 ， 就 会 与 这 个 概念 扯 上 关系 。 
需要 留意 这 些 存 储 在 不 同 国家 的 数据 是 否 符合 当地 的 法 律 








K 

Key value databases 键 值 数据 库 一 一 数据 的 存储 方式 是 使 用 一 个 特定 的 键 ， 指 向 一 
个 特定 的 数据 记录 ， 这 种 方式 使 得 数据 的 查找 更 加 方便 快捷 。 
键 值 数据 库 中 所 存 的 数据 通常 为 编程 语言 中 基本 数据 类 型 的 
数据 

L 

Latency 延迟 一 一 表示 系统 时 间 的 延迟 

Legacy system 遗留 系统 一 一 一 种 旧 的 应 用 程序 ， 或 是 旧 的 技术 ， 或 是 旧 的 计 
算 系 统 ， 现 在 已 经 不 再 支持 

Load balancing 负载 均衡 一 一 将 工作 量 分 配 到 多 台 计 算 机 或 服务 器 上 ， 以 获得 
最 优 结果 和 最 大 的 系统 利用 率 

Location data 位 置信 息 一 一 GPS 信 息 ， 即 地 理 位 置信 息 

Log file 志文 件 一 一 由 计算 机 系统 自动 生成 的 文件 ,记录 系统 的 运行 

M 


Machine 2 machine data M2M 数据 一 一 两 台 或 多 台 机 器 间 交 流 与 传输 的 内 容 
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Machine data 
Machine learning 


MapReduce 
MPP 


Metadata 
MongoDB 
Multi-dimensional 


databases 
MultiValue databases 


N 

Natural language processing 
Network analysis 
NewSQL 


NoSQL 


o 
Object databases 


Object-based image analysis 
Operational databases 


Optimization analysis 


机 器 数据 一 一 由 传感器 或 算法 在 机 器 上 产生 的 数据 

机 器 学 习 一 一 人 工 智能 的 一 部 分 , 指 的 是 机 器 能 够 从 它们 所 完 
成 的 任务 中 进行 自我 学 习 ， 通 过 长 期 的 累积 实现 自我 改进 
处 理 大 规模 数据 的 一 种 软件 框架 (Map: 映射 ，Reduce: 归纳 ) 
大 规模 并 行 处 理 (massively parallel processing) 同时 使 用 
多 个 处 理 器 (或 多 台 计 算 机 〉 处 理 同一 个 计算 任务 

元 数据 一 一 被 称 为 描述 数据 的 数据 ， 即 描述 数据 属性 (数据 是 
什么 ) 的 信息 

一 种 开源 的 非 关系 型 数据 库 CNoSQL database) 

多 维 数据 库 一 一 用 于 优化 数据 联机 分 析 处 理 COLAPO 程序 、 
优化 数据 仓库 的 一 种 数据 库 

多 值 数 据 库 一 一 一 种 非 关 系 型 数据 库 NoSQL) ， 一 种 特殊 的 
多 维 数据 库 ， 能 处 理 3 个 维度 的 数据 。 主 要 针对 非常 长 的 字符 
串 ， 能 够 完美 地 处 理 HTML 和 XML 中 的 字符 串 




















自然 语言 处 理 一 一 计算 机 科学 的 一 个 分 支 领域 , 它 研究 如 何 实 
现 计算 机 与 人 类 语言 之 间 的 交互 
网 络 分 析 一 一 分 析 网 络 或 图 论 中 节点 间 的 关系 ， 即 分 析 网 络 中 
节点 间 的 连接 和 强度 关系 

-个 优雅 的 、 定 义 良 好 的 新 型 数据 库 系统 ， 比 SQL 更 易学 习 
和 使 用 ， 比 NoSQL 更 晚 提出 
顾名思义 ， 就 是 “不 使 用 SQL ”的 数据 库 ， 泛 指 传统 关系 型 数 
据 库 以 外 的 其 他 类 型 的 数据 库 。 这 类 数据 库 有 更 强 的 一 致 性 ， 
EE 处理 超大 规模 和 高 并 发 的 数据 


对 象 数 据 库 一 一 也 称 为 面向 对 象 数据 库 ， 以 对 象 的 形式 存储 数 
据 , 用 于 面向 对 象 编 程 。 它 不 同 于 关系 型 数据 库 和 图 形 数据 库 ， 
大 部 分 对 象 数据 库 都 提供 一 种 查询 语言 ， 允 许 使 用 声明 式 编 程 
(declarative programming) 访问 对 象 

基于 对 象 的 图 像 分 析 一 一 数字 图 像 分 析 方 法 是 对 每 一 个 像素 
的 数据 进行 分 析 ， 而 基于 对 象 的 图 像 分 析 方 法 则 只 分 析 相 关 像 
素 的 数据 ， 这 些 相 关 像 素 被 称 为 对 象 或 图 像 对 象 
操作 型 数据 库 一 一 这 类 数据 库 可 以 完成 一 个 组 织 机 构 的 常规 
操作 ， 对 商业 运营 非常 重要 ， 一 般 使 用 在 线 事务 处 理 ， 允 许 用 
户 访 问 、 收 集 、 检 索 公司 内 部 的 具体 信息 

优化 分 析 一 一 在 产品 设计 周期 依靠 算法 来 实现 的 优化 过 程 , 在 
这 一 过 程 中 , 公司 可 以 设计 各 种 各 样 的 产品 并 测试 这 些 产 品 是 
否 满足 预 设 值 











Ontology 


Outlier detection 


P 
Pattern recognition 


PB, Petabyte 


PaaS 


Predictive analysis 


Privacy 

Public data 

Q 
Quantified self 
Query 

R 


Re-identification 


Regression analysis 


RFID 


Real-time data 


Recommendation engine 
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本 体 论 一 一 表示 知识 本 体 , 用 于 定义 一 个 领域 中 的 概念 集 及 概 
念 之 间 的 关系 的 一 种 哲学 思想 。 数 据 被 提高 到 哲学 的 高 度 ， 被 
赋予 了 世界 本 体 的 意义 ， 成 为 一 个 独立 的 客观 数据 世界 

异常 值 检测 一 一 异常 值 是 指 严重 偏离 一 个 数据 集 或 一 个 数据 
组 合 总 平均 值 的 对 象 ， 该 对 象 与 数据 集中 的 其 他 相去 甚 远 ， 因 
此 ， 蜡 常 值 的 出 现 意味 着 系统 发 生 问题 ， 需 要 对 此 另 加 分 析 














模式 识别 一 一 通过 算法 来 识别 数据 中 的 模式 ， 并 对 同一 数据 源 
中 的 新 数据 作出 预测 


P 字 节 一 一 约 等 于 1000TB (Terabytes) ， 约 等 于 100 万 GB 
(Gigabytes) 。 欧 洲 核子 研究 中 心 (CERN) 大 型 强 子 对 撞 机 每 
秒 产 生 的 粒子 个 数 就 约 为 1PB 

平台 即 服 务 (Platform-as-a-Service) 一 一 为 云 计算 解决 方案 提 
供 所 有 必需 的 基础 平台 的 一 种 服务 

预测 分 析 一 一 大 数据 分 析 方 法 中 最 有 价值 的 一 种 分 析 方 法 , 这 
种 方法 有 助 于 预测 个 人 未 来 (近期 ) 的 行为 (例如 ， 某 人 很 可 
能 会 买 某 些 商品 ， 可 能 会 访问 某 些 网 站 、 做 某 些 事情 或 者 产生 
某 种 行为 ) 。 通 过 使 用 各 种 不 同 的 数据 集 ， 如 历史 数据 、 事 务 
数据 、 社 交 数 据 或 者 客户 的 个 人 信息 数据 ,来 识别 风险 和 机 遇 
隐私 一 一 把 具有 可 识别 出 个 人 信息 的 数据 与 其 他 数据 分 离开 
以 确保 用 户 隐 私 

公共 数据 一 一 由 公共 基金 创建 的 公共 信息 或 公共 数据 集 





数字 化 自我 一 一 使 用 应 用 程序 跟踪 用 户 一 天 的 一 举 一 动 ， 从 而 
更 好 地 理解 其 相关 的 行为 
查询 一 一 查找 某 个 问题 答案 的 相关 信息 





再 识别 一 一 将 多 个 数据 集合 并 在 一 起 ， 从 匿名 化 的 数据 中 识别 
出 个 人 信息 


回归 分 析 一 一 确定 两 个 变量 间 的 依赖 关系 。 这 种 方法 假设 两 个 
变量 之 间 存 在 单 向 的 因果 关系 〈 自 变量 和 因 变 量 ， 二 者 不 可 
HH) 








射频 识别 一 一 这 种 识别 技术 使 用 一 种 无 线 非 接触 式 射频 电磁 
场 传感器 来 传输 数据 

实时 数据 一 一 指 在 几 毫 秒 内 被 创建 、 处 理 、 存 储 、 分 析 并 显示 
的 数据 


推荐 引擎 一 一 推荐 引擎 算法 根据 用 户 之 前 的 购买 行为 或 其 他 
购买 行为 向 用 户 推荐 某 种 产品 
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Routing analysis 


S 
Semi-structured data 


Sentiment analysis 


Signal analysis 


Similarity searches 


Simulation analysis 


Smart grid 
SaaS 

Spatial analysis 
SQL 
Structured data 
T 


TB, Terabyte 


Time series analysis 


Topological data analysis 


Transactional data 


Transparency 


U 
Un-structured data 


路 径 分 析 一 一 针对 某 种 运输 方法 , 通过 使 用 多 种 不 同 的 变量 分 
析 从 而 找到 一 条 最 优 路 径 ， 以 达到 降低 燃料 费用 、 提 高 效率 的 
目的 


半 结 构 化 数据 一 一 半 结 构 化 数据 并 不 具有 结构 化 数据 严格 的 
存储 结构 , 但 它 可 以 使 用 标签 或 其 他 形式 的 标记 方式 以 保证 数 


据 的 层次 结构 
情感 分 析 一 一 通过 算法 分 析出 人 们 是 如 何 看 待 某 些 话题 





信号 分 析 一 一 通过 度量 随时 间或 空间 变化 的 物理 量 来 分 析 产 
品 的 性 能 ， 特 别 是 使 用 传感器 数据 

相似 性 搜索 一 一 在 数据 库 中 查询 最 相似 的 对 象 , 这 里 所 说 的 数 
据 对 象 可 以 是 任意 类 型 的 数据 

仿真 分 析 一 一 仿真 是 指 模拟 真实 环境 中 进程 或 系统 的 操作 , D 
真 分 析 可 以 在 仿真 时 考虑 多 种 不 同 的 变量 , 确保 产品 性 能 达到 
最 优 

智能 网 格 一 一 在 能 源 网 中 使 用 传感器 实时 监控 其 运行 状态 ， 有 
助 于 提高 效率 

软件 即 服务 (Software-as-a-Service) 一 一 基于 Web 的 、 通 过 浏 
览 器 使 用 的 一 种 应 用 软件 

空间 分 析 一 一 空间 分 析 法 分 析 地 理 信息 或 拓扑 信息 这 类 空间 
数据 ， 从 中 得 出 分 布 在 地 理 空间 中 的 数据 的 模式 和 规律 

在 关系 型 数据 库 中 ， 用 于 检索 数据 的 一 种 编程 语言 
结构 化 数据 一 一 可 以 组 织 成 行列 结构 ， 可 识别 的 数据 。 这 类 数 
据 通常 是 一 条 记录 ， 或 者 一 个 文件 ， 或 者 被 正确 标记 过 的 数据 
中 的 某 一 个 字段 ， 并 且 可 以 被 精确 地 定位 到 











T 字 节 一 一 约 等 于 1000GB (Gigabytes) 。1TB 容量 可 以 存储 
约 300 小 时 的 高 清 视频 

时 序 分 析 一 一 分 析 在 重复 测量 时 间 里 获得 的 定义 良好 的 数据 。 
分 析 的 数据 必须 是 良好 定义 的 , 并 且 要 取 自 相同 时 间 间 隔 的 连 
续 时 间 点 

拓扑 数据 分 析 一 一 拓扑 数据 分 析 主 要 关注 三 点 : 复合 数据 模 
型 、 集 群 的 识别 以 及 数据 的 统计 学 意义 

交易 数据 一 一 随时 间 变 化 的 动态 数据 

透明 性 一 一 消费 者 想 要 知道 他 们 的 数据 有 什么 作用 、 被 如 何 处 
理 ， 而 组 织 机 构 则 把 这 些 信 息 都 透明 化 了 





非 结构 化 数据 一 一 非 结 构 化 数据 一 般 被 认为 是 大 量 纯 文 本 数 
据 ， 其 中 还 可 能 包含 日 期 、 数 字 和 实例 
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V 

Value 价值 一 一 大 数据 4V 特点 之 一 。 所 有 可 用 的 数据 能 为 组 织 机 构 、 
社会 、 消 费 者 创造 出 巨大 的 价值 。 这 意味 着 各 大 企业 及 整个 产 
业 都 将 从 大 数据 中 获 益 

Variability 可 变性 一 一 也 就 是 说 ， 数 据 的 含义 总 是 在 快速 ) 变化 的 。 例 
如 ， 一 个 词 在 相同 的 推 文中 可 以 有 完全 不 同 的 意思 

Variety 多 样 一 一 大 数据 AV 特点 之 一 。 数 据 总 是 以 各 种 不 同 的 形式 呈 
现 ， 如 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 ， 甚 至 还 有 

Velocity 高 速 一 一 大 数据 4V 特点 之 一 。 在 大 数据 时 代 ， 数 据 的 创建 、 


存储 、 分 析 、 虚 拟 化 都 要 求 被 高 速 处 理 

Veracity 真实 性 一 一 组 织 机 构 需 要 确保 数据 的 真实 性 , 才能 保证 数据 分 
析 的 正确 性 。 因 此 ， 真 实 性 是 指数 据 的 正确 性 

Visualization 可 视 化 一 一 只 有 正确 地 可 视 化 ， 原 始 数 据 才 可 被 投入 使 用 。 这 
里 的 “可 视 化 ” 指 的 并 非 普 通 的 图 形 或 饼 图 , 而 是 复杂 的 图 表 ， 
图 表 中 包含 大 量 的 数据 信息 ， 但 可 以 被 很 容易 地 理解 和 阅读 

Volume 大 量 一 一 大 数据 AV 特点 之 一 。 指 数据 量 ， 范 围 从 Megabytes 
至 Brontobytes 





Ww 

Weather data 天 气 数据 一 一 是 一 种 重要 的 开放 公共 数据 来 源 ， 如果 与 其 他 数 
据 来 源 合成 在 一 起 , 可 以 为 相关 组 织 机 构 提 供 深 入 分 析 的 依据 

X 

XML databases XML 数据 库 一 XML 数据 库 是 一 种 以 XML 格式 存储 数据 的 
数据 库 。XML 数据 库 通 常 与 面向 文档 型 数据 库 相 关联 ， 开 发 
人 员 可 以 对 XML 数据 库 的 数据 进行 查询 ， 导 出 以 及 按 指定 的 
格式 序列 化 

Y 

YB. Yottabyte Y 字 节 一 一 约 等 于 1000ZB (Zettabytes) ， 约 等 于 250 万 亿 张 
DVD 的 数据 容量 

Z 


ZB.Zettabyte Z 字 节 一 一 约 等 于 1000EB (Exabytes) ， 约 等 于 10° TB 


附录 5 


存储 容量 单位 换算 





8 Bits = 1 Byte ( 字 节 ) 

1024 Bytes = 1 Kilobyte 

1024 Kilobytes = 1 Megabyte 
1024 Megabytes = 1 Gigabyte 
1024 Gigabytes = 1 Terabyte 
1024 Terabytes = 1 Petabyte 
1024 Petabytes = 1 Exabyte 
1024 Exabytes = 1 Zettabyte 
1024 Zettabytes = 1 Yottabyte 
1024 Yottabytes = 1 Brontobyte 
1024 Brontobytes = 1 Geopbyte 


o] 
2] 
B] 
[4] 
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